Saber como os dados são organizados
Objetivos de aprendizagem
Após concluir esta unidade, você estará apto a:
- Descrever como os dados corretamente estruturados são organizados.
- Diferenciar entre dados corretamente estruturados e dados mal formatados.
Introdução
Na unidade anterior, você aprendeu algumas características de dados úteis de alta qualidade. Duas características que pertencem especificamente à organização de dados são estruturados dimensionalmente e atômicos. Os dados estruturados dimensionalmente são organizados em dois tipos: Dimensões (valores qualitativos) e Medidas (valores quantitativos). Essa é a estrutura organizacional que o Tableau usa ao interpretar dados. Os dados que são atômicos são claramente detalhados permitindo que você analise os dados em vários níveis de detalhes.
Quando os dados estão organizados, é mais fácil analisá-los, pois podem ser examinados, resumidos, pesquisados e filtrados de muitas maneiras diferentes. Os dados desorganizados muitas vezes limitam como podem ser analisados. Por exemplo, se os dados já estão resumidos por mês, as tendências diárias ou semanais não podem ser examinadas.
Nesta unidade, você aprenderá como os dados corretamente estruturados são organizados.
Organização de dados
Os dados são organizados em linhas e colunas.
- As colunas são verticais, e cada coluna representa uma variável (ou campo) diferente. O módulo Noções básicas de letramento em dados define variável como uma medição, propriedade ou característica de um item que pode variar ou se alterar. Na plataforma Tableau, as variáveis são chamadas de campos.
- As linhas são horizontais, e cada linha representa uma unidade de análise. Na plataforma Tableau, as unidades de análise são chamadas de valores.
Vamos ver um exemplo. Pense em alguns de seus familiares ou amigos e crie uma tabela usando as variáveis (ou campos): nome, idade, altura e comida favorita. Sua tabela pode ficar algo assim.
Nome | Idade | Altura (m) | Comida favorita |
---|---|---|---|
Aliya |
8 |
1,27 |
Sorvete |
Miles |
12 |
1,60 |
Pizza de azeitona |
Penny |
42 |
1,70 |
Espiga de milho |
Vince |
39 |
1,77 |
Panquecas |
Como você pode ver, as variáveis (ou campos) são organizadas em colunas, uma cada para Nome, Idade, Alturae Comida favorita. Cada linha representa uma unidade de análise (ou valor). Neste caso, a leitura de qualquer linha diz o nome, a idade, a altura e a comida favorita de uma pessoa. Por exemplo, Aliya tem 8 anos, 1,27 m de altura e gosta de sorvete.
A organização dos dados "bons"
Dados "bons" são dados corretamente estruturados e são organizados desta forma.
- Cada variável (campo) está em uma coluna, com um cabeçalho de coluna.
- Cada observação diferente dessa variável (valor) está em uma linha diferente.
Por exemplo, olhe para esta tabela simples. As variáveis (campos) são Fornecedor, Cidadee Estado, e cada uma existe em sua própria coluna com um cabeçalho de coluna. Cada linha lista as observações das variáveis (valores), neste caso, o nome do fornecedor e a localização por cidade e estado. Ter o estado do fornecedor em sua própria coluna permite a pesquisa e filtragem de fornecedores por estado. Se a cidade e o estado do fornecedor estivessem combinados em um campo, esse tipo de análise seria mais difícil.
Fornecedor | Cidade | Estado |
---|---|---|
Polly’s Lollipops |
Preston |
WA |
Lucy’s Lollies |
Lansing |
MI |
Carlo Callazo’s Candy |
Cambridge |
MA |
Ming’s Minty Meringues |
Madison |
WI |
Dados mal formatados
Dados mal formatados contêm certas características que causam desordem nos dados ou podem dificultar a interpretação de dados em programas de software, incluindo o Tableau. Alguns desses problemas incluem:
- As variáveis (campos) não estão em uma coluna cada, com um cabeçalho de coluna.
- As observações diferentes da variável (valores) não estão em linhas diferentes.
- Os títulos são formatados como linhas acima dos cabeçalhos da coluna ou como colunas extras.
- Há colunas e linhas extras.
- Os cabeçalhos da coluna são formatados como subtítulos e não na primeira linha.
Por exemplo, aqui está uma tabela mal formatada, que documenta o número médio de filmes que uma amostra de 16.000 pessoas na Califórnia e em Nova York viu em 2019.
Você notou alguma das características dos dados mal formatados listados acima?
- A. Títulos em linhas: a primeira linha deve conter apenas cabeçalhos de coluna. Essa linha e a abaixo são títulos, não cabeçalhos de coluna.
- B. Cabeçalhos de coluna na terceira fileira: apesar de estarem em destaque, as células Característica e Tamanho da amostra não serão lidas como cabeçalhos de coluna pela maioria dos programas de software, incluindo o Tableau.
- C. Coluna extra: esse é o título do relatório, mas está formatado como sua própria coluna.
- D. Linha extra: Estado é uma variável (campo) e deve ter sua própria coluna, com um cabeçalho de coluna, não uma linha.
- E. (e F.) Variável (campo) como subtítulo: subtítulos (Faixa etária, Número médio de filmes vistos em 2019) nessa coluna são variáveis (campos) que devem existir em suas próprias colunas.
Agora você sabe como os dados são organizados e a diferença entre dados corretamente estruturados e mal formatados. Na próxima unidade, explore algumas maneiras de reestruturar dados mal formatados.