Identificar características de dados
Objetivos de aprendizagem
Após concluir esta unidade, você estará apto a:
- Identificar características de dados úteis.
- Reconhecer características de dados úteis em dados de exemplo.
Introdução
As pessoas geralmente usam dados analisando-os para ajudar na tomada de decisões. Você sabe dizer quando seus dados estão prontos para análise? Neste módulo, você aprende a reconhecer dados "bons" e como reestruturar dados quando necessário.
Nesta unidade, você aprenderá a reconhecer as características de dados úteis e de alta qualidade. Os dados que têm essas características permitem que você realize análises eficientes e produtivas.
O módulo Noções básicas de letramento em dados discute características que o proeminente tecnólogo de informações Stephen Few identificou como características que ajudam as pessoas a trabalhar efetivamente com dados. Assim como as pessoas que trabalham efetivamente com dados têm atributos específicos, os dados eficazes têm características específicas que os tornam úteis. E, de acordo com Stephen Few, trabalhar com dados de alta qualidade é uma parte essencial da análise de dados que leva a insights importantes.
Stephen Few é reconhecido como líder no campo da visualização de dados, e essas características foram adaptadas com permissão de seu livro, Now You See It: An Introduction to Visual Data Sensemaking (Agora você vê: uma introdução à compreensão de dados visuais).
Características dos dados úteis
Poucos compilaram uma lista de características que podem ser encontradas em dados úteis. Ao ler essas características, reflita sobre sua própria experiência. Você encontrou dados úteis em sua vida pessoal ou profissional? Quais dessas características os dados possuíam? Você encontrou dados que não foram úteis em sua vida pessoal ou profissional? Quais dessas características os dados não possuíam?
Estes são algumas das características de dados de alta qualidade.
Características |
Descrição |
---|---|
Alto volume |
Uma grande quantidade de dados relevantes e disponíveis significa que há uma chance maior de você ter o que precisa para responder suas perguntas. Nota: não existe a necessidade de adquirir dados só porque sim; a relevância é importante. |
Históricos |
Dados que remontam ao passado permitem que você veja como a situação atual surgiu devido a padrões que surgiram ao longo do tempo, por exemplo, olhar para as tendências de vendas nos últimos 10 anos para ver aumento ou diminuição. |
Consistência |
À medida que as coisas mudam, os dados devem ser ajustados em relação à consistência. Os dados salariais e de preços ajustados pela inflação são um bom exemplo disso. |
Multivariados |
Os dados devem conter variáveis quantitativas (numericamente mensuráveis) e qualitativas (características não numericamente mensuráveis). Quanto mais variáveis nos dados, mais você pode descobrir com base neles. |
Pontual |
Quanto mais detalhados forem os dados, mais você será capaz de examiná-los em vários níveis de detalhes. Por exemplo, se você quisesse entender as tendências de passeio de bicicleta em seu estado, seria útil ver essas tendências como afetadas por município, cidade e bairro. |
Limpos |
Para que os dados sejam úteis, eles devem ser precisos, completos e livres de erros. |
Claros |
Os dados devem ser escritos em termos que possam ser facilmente compreendidos, não em código. Por exemplo, os valores de tipo de moradia unifamiliar, conversão em bifamiliar e casa geminada são muito mais fáceis de entender do que 1Fam, 2fmCon e TwnhsE. |
Dimensionalmente estruturados |
Uma maneira acessível de estruturar dados é organizá-los em dois tipos: Dimensões (valores qualitativos) e Medidas (valores quantitativos). Essa é a estrutura organizacional que o Tableau usa ao interpretar dados. |
Ricamente segmentados |
Os grupos baseados em características semelhantes devem ser incorporados aos dados para facilitar a análise. Por exemplo, os dados sobre filmes poderiam ser agrupados por gênero (ação, ficção científica, romance, comédia e assim por diante). |
De procedência conhecida |
Para confiar nos dados, você deve conhecer sua origem; de onde eles vêm e como eles foram alterados desde então. |
Considere alguns dados de exemplo
Imagine que você tem um arquivo Excel chamado "Janeiro-reatores-funcionando" que foi baixado de Data.gov, um site onde você pode acessar os dados abertos do Governo dos Estados Unidos. O arquivo contém informações sobre locais e capacidades de energia de reatores nucleares nos Estados Unidos. Esta imagem oferece um instantâneo das primeiras 16 linhas dos dados.
Pense nas características dos dados úteis. Você sabe que esse conjunto de dados vem do Data.gov, um site onde você pode acessar os dados abertos do Governo dos Estados Unidos, e vê que ele contém dados dos anos de 2003 a 2018. Vamos testar o que você acabou de aprender. Quais duas características de dados úteis estão representadas? Na atividade abaixo, preencha os espaços em branco de cada frase.
Agora você tem uma compreensão de algumas características de dados eficazes. Na próxima unidade, veja como os dados são organizados e a diferença entre dados corretamente estruturados e mal formatados.
Recursos
- Livro: Few, S. (2021). Now You See It: An Introduction to Visual Data Sensemaking (2nd ed). (Agora você vê: uma introdução à compreensão de dados visuais). Analytics Press.
- Site da Web: Perceptual Edge, o site profissional de Stephen Few