Reestruturar dados
Objetivos de aprendizagem
Após concluir esta unidade, você estará apto a:
- Identificar opções de reestruturação de dados.
- Descrever o objetivo de dinamizar dados.
- Descrever o objetivo de dividir dados.
Introdução
Você aprendeu a reconhecer dados "bons" identificando as características de dados relevantes e de alta qualidade e descobriu como estão organizados os dados corretamente estruturados. Mas o que você deve fazer se seus dados não estão corretamente estruturados? Nesta unidade, você explora algumas opções para reestruturar seus dados, como dinamizar e dividir variáveis (campos).
Opções para reestruturar dados
As opções que você pode usar para reestruturar dados incluem:
- Alterar o banco de dados subjacente
- Usar uma linguagem de programação, como R ou Python
- Usar ferramentas para, por exemplo, dinamizar e dividir dados dentro da plataforma Tableau, incluindo Tableau Prep Builder ou Tableau Desktop
- Usar outras ferramentas ETL (Extrair, Transformar, Carregar)
Em alguns casos, você personaliza metadados que descrevem os dados em vez de modificar os dados reais. Os metadados podem incluir informações como cálculos, campos renomeados e formatação padrão. Os metadados também podem incluir quais mudanças foram feitas na estrutura de dados.
Revisão: Dados corretamente estruturados
Pense no que aprendeu anteriormente neste módulo sobre como os dados corretamente estruturados são organizados.
- Cada variável está em uma coluna, com um cabeçalho de coluna.
- Cada observação diferente dessa variável está em uma linha diferente.
Anteriormente, vimos a tabela simples a seguir. Esses dados estão corretamente estruturados. As variáveis são Fornecedor, Cidadee Estado, e cada uma existe em sua própria coluna com um cabeçalho de coluna. Cada linha lista as observações (ou valores) das variáveis (ou campos), neste caso, o nome do fornecedor e a localização por cidade e estado.
Fornecedor |
Cidade |
Estado |
---|---|---|
Polly’s Lollipops |
Preston |
WA |
Lucy’s Lollies |
Lansing |
MI |
Carlo Callazo’s Candy |
Cambridge |
MA |
Ming’s Minty Meringues |
Madison |
WI |
Se seus dados não forem corretamente estruturados, você precisará concluir algumas tarefas de preparação de dados para que o conjunto de dados seja útil para análise.
Algumas tarefas comuns para transformar dados incorretamente estruturados em dados corretamente estruturados incluem:
- Transformar colunas em linhas ou vice-versa (dinamizar)
- Dividir campos
O que é dinamização?
Basicamente, a dinamização muda colunas para linhas e, em alguns casos, vice-versa.
Use dinamização em conjuntos de dados "amplos" quando as informações forem capturadas com muitas colunas e as colunas contiverem informações semelhantes. Essa estrutura é possivelmente mais conveniente para um relatório de usuário, mas não é tão útil para análise. Por exemplo, o Tableau Desktop funciona melhor com a análise de dados em uma estrutura de tabela "alta/estreita".
Considere esta tabela que lista as tarifas de estacionamento pagas pelos funcionários. Há uma linha para cada funcionário com um campo (coluna) para cada data (05/02/2020, 06/02/2020, e assim por diante).
Funcionário |
05/02/2020 |
06/02/2020 |
07/02/2020 |
08/02/2020 |
09/02/2020 |
---|---|---|---|---|---|
Christine |
10 |
10 |
10 |
10 |
10 |
Tristan |
10 |
||||
Lily |
10 |
10 |
|||
Jamal |
10 |
10 |
Se trouxermos essa estrutura de dados para algumas ferramentas, como o Tableau Desktop, teremos um campo para cada coluna. Há cinco campos que representam as tarifas de estacionamento pagas por esse dia. Isso torna muito difícil fazer análises ao longo do tempo, pois os dados estão armazenados em campos separados. Os campos (variáveis) Funcionário, Datae Tarifa de estacionamento devem existir em suas próprias colunas, com cabeçalhos de coluna. Cada linha deve listar os valores (observações das variáveis); neste caso, o nome do funcionário, a data e a tarifa de estacionamento paga.
Após a dinamização, a estrutura de dados desejada é alcançada, como mostrado na tabela a seguir. Agora você pode analisar esses dados olhando as tendências ao longo do tempo porque todos os valores de data estão em uma coluna.
Funcionário |
Data |
Tarifa de estacionamento |
---|---|---|
Christine |
05/02/2020 |
10 |
Christine |
06/02/2020 |
10 |
Christine |
07/02/2020 |
10 |
Christine |
08/02/2020 |
10 |
Christine |
09/02/2020 |
10 |
Tristan |
05/02/2020 |
10 |
Lily |
05/02/2020 |
10 |
Lily |
09/02/2020 |
10 |
Jamal |
05/02/2020 |
10 |
Jamal |
07/02/2020 |
10 |
O que é uma divisão?
Basicamente, uma divisão separa uma coluna que contém várias informações em várias colunas, uma para cada informação.
Uma divisão separa os valores de campo de sequência de caracteres (texto) com base em um delimitador (um caractere como uma vírgula, dois pontos ou um hífen que esteja localizado entre partes distintas de informação dentro de um valor de campo). As divisões são úteis quando os componentes de campo têm significado que possa ser usado para analisar seus dados.
No exemplo a seguir, os valores no campo Companhia aérea contêm o nome da companhia aérea, bem como um código de duas letras da companhia aérea. Os dois pontos entre esses dois tipos de informação é o delimitador.
Companhia aérea |
---|
American Airlines: AA |
Delta Airlines: DL |
JetBlue Airways: B6 |
United Airlines: UA |
Após a divisão, os nomes e códigos da companhia aérea estão em colunas separadas na tabela. Agora é mais fácil analisar esses dados por códigos de companhias aéreas.
Companhia aérea |
Código da companhia aérea |
---|---|
American Airlines |
AA |
Delta Airlines |
DL |
JetBlue Airways |
B6 |
United Airlines |
UA |
Agora você tem uma compreensão das características e da organização dos dados e algumas opções para reestruturar dados, incluindo dinamização e divisão de campos.
Use a tabela a seguir para responder à primeira pergunta do teste.
Cidade | Estado | T1 | T2 | T3 | T4 |
---|---|---|---|---|---|
São Francisco |
CA |
US$ 25.465 |
US$ 15.389 |
US$ 19.268 |
US$ 28.491 |
Nova York |
NY |
US$ 42.543 |
US$ 39.642 |
US$ 41.687 |
US$ 44.594 |
Seattle |
WA |
US$ 38.756 |
US$ 32.174 |
US$ 33.452 |
US$ 39.892 |