Identificar características de los datos
Objetivos de aprendizaje
Después de completar esta unidad, podrá:
- Identificar las características de los datos útiles.
- Reconocer las características de los datos útiles en los datos de ejemplo.
Introducción
En general, las personas utilizan datos mediante su análisis para facilitar la toma de decisiones. ¿Sabe cómo asegurarse de que sus datos estén listos para el análisis? En este módulo, aprenderá a reconocer los datos "buenos" y cómo reestructurarlos cuando sea necesario.
En esta unidad, aprenderá a reconocer las características de los datos útiles y de buena calidad. Los datos que tienen estas características le permiten realizar análisis productivos y eficaces.
En el módulo Fundamentos de la alfabetización de datos, se analizan las características que Stephen Few, el destacado especialista en tecnología de la información, identificó como características que ayudan a las personas a trabajar con datos de manera eficaz. Al igual que las personas que trabajan con datos de manera eficaz tienen atributos específicos, los datos eficaces poseen características concretas que los hacen útiles. Según Stephen Few, trabajar con datos de buena calidad es una parte esencial del análisis de datos para descubrir información relevante.
Stephen Few es conocido por ser líder en el campo de la visualización de datos, y estas características se han adaptado, con permiso, de su libro Now You See It: An Introduction to Visual Data Sensemaking.
Características de los datos útiles
Algunas personas han recopilado una lista de características presentes en los datos útiles. Mientras lee estas características, reflexione sobre su propia experiencia. ¿Ha encontrado datos que le hayan resultado útiles en su vida personal o laboral? ¿Cuáles de estas características tenían esos datos? ¿Ha encontrado datos que no le hayan resultado útiles en su vida personal o laboral? ¿Cuáles de estas características no tenían esos datos?
Estas son algunas características de los datos de buena calidad.
Características |
Descripción |
---|---|
Gran cantidad |
Contar con una gran cantidad de datos pertinentes y disponibles significa que existen más probabilidades de que cuente con lo que necesita para responder sus preguntas. Nota: No es necesario acumular datos porque sí. La relevancia es importante. |
Históricos |
Los datos que se remontan al pasado permiten ver cómo surgió una situación actual debido a patrones a lo largo del tiempo. Por ejemplo, al analizar las tendencias de ventas de los últimos 10 años para identificar aumentos o disminuciones. |
Coherencia |
A medida que las cosas cambian, los datos deben adaptarse para mantener la coherencia. Los datos sobre salarios y precios ajustados en función de la inflación son un buen ejemplo de ello. |
Con múltiples variables |
Los datos deben incluir tanto variables cuantitativas (que pueden medirse numéricamente) como variables cualitativas (características que no se pueden medir numéricamente). Cuantas más variables incluyan los datos, más información se podrá descubrir. |
Atómicos |
Cuanto más detallados sean los datos, más fácil será examinarlos en varios niveles de detalle. Por ejemplo, si quisiera conocer las tendencias en cuanto al uso de bicicletas en su estado, resultaría útil ver estas tendencias en función del condado, la ciudad y el barrio. |
Limpios |
Para que los datos sean útiles, deben ser exactos, precisos y estar completos; además, no deben contener errores. |
Claros |
Los datos deben escribirse en términos que se puedan entender fácilmente, no en código. Por ejemplo, los valores para el tipo de vivienda unifamiliares, casa convertida para dos familias y casa adosada son mucho más fáciles de entender que 1Fam, 2fmCon y TwnhsE. |
Con estructura dimensional |
Una buena forma de estructurar los datos es organizarlos en dos tipos: dimensiones (valores cualitativos) y medidas (valores cuantitativos). Esta es la estructura de organización que utiliza Tableau a la hora de interpretar los datos. |
Segmentados de forma enriquecida |
Los grupos, basados en características similares, deben integrarse en los datos para facilitar el análisis. Por ejemplo, los datos sobre películas pueden agruparse por género (acción, ciencia ficción, románticas, comedia, etc.). |
Contexto conocido |
Para confiar en los datos, debe conocer su trasfondo: de dónde provienen y cómo se han modificado desde entonces. |
Tener en cuenta algunos datos de ejemplo
Imagine que tiene un archivo de Excel con el nombre "January-reactors-operating" que ha descargado de Data.gov, un sitio web para acceder a los datos públicos del gobierno de los Estados Unidos. El archivo incluye información sobre ubicaciones y capacidad energética de los reactores nucleares de Estados Unidos. Esta imagen es una instantánea de las primeras 16 filas de datos.
Piense en las características de los datos útiles. Usted sabe que la fuente de este conjunto de datos es Data.gov, un sitio web donde puede acceder a los datos públicos del gobierno de Estados Unidos que incluye datos desde 2003 hasta 2018. Vamos a poner a prueba lo que ha aprendido. ¿Qué dos características de los datos útiles están representadas? En la actividad que aparece a continuación, complete el espacio en blanco de cada oración.
Ahora ya conoce algunas características de los datos eficaces. En la siguiente unidad, aprenderá cómo se organizan los datos y cuál es la diferencia entre los datos bien estructurados y aquellos que presentan poco formato.
Recursos
- Libro: Few, S. (2021). Now You See It: An Introduction to Visual Data Sensemaking (segunda edición). Analytics Press.
- Sitio web: Perceptual Edge, Stephen Few’s professional website