Identificar las características de los datos
Objetivos de aprendizaje
Después de completar esta unidad, podrá:
- Identificar las características de los datos útiles.
- Reconocer las características de los datos útiles en los datos de ejemplo.
Introducción
En general, las personas utilizan datos mediante su análisis para facilitar la toma de decisiones. ¿Sabe cómo asegurarse de que sus datos estén listos para el análisis? En este módulo, aprenderá cómo reconocer los datos adecuados y cómo reestructurarlos cuando es necesario.
En esta unidad, aprenderá cómo reconocer las características de los datos útiles de alta calidad. Los datos que tienen estas características le permiten realizar análisis productivos y eficientes.
En el módulo Fundamentos de la alfabetización de datos, se analizan las particularidades que el destacado especialista en tecnología de la información Stephen Few identificó como características que ayudan a las personas a trabajar con los datos de manera eficaz. De la misma manera que las personas que trabajan eficazmente con los datos tienen atributos específicos, los datos eficaces poseen características concretas que lo hacen útiles. Y según Stephen Few, trabajar con datos de alta calidad son una parte esencial del análisis de datos para descubrir información relevante.
Stephen Few es conocido por ser líder en el campo de la visualización de datos, y estas características se adaptaron, con permiso, de su libro Ahora lo ve (en inglés): An Introduction to Visual Data Sensemaking.
Características de los datos útiles
Algunos compilaron una lista de características que se encuentran en los datos útiles. Mientras lee estas características, reflexione sobre su propia experiencia. ¿Encontró datos que le resultaron útiles en su vida personal o laboral? ¿Cuáles de estas características tenían esos datos? ¿Ha encontrado datos que no fueron útiles en su vida personal o laboral? ¿Qué características no tenían esos datos?
Estas son algunas características de los datos de alta calidad.
Características |
Descripción |
---|---|
Volumen alto |
Contar con una gran cantidad de datos relevantes disponibles significa que existen más posibilidades de que cuente con lo que necesita para responder sus preguntas. Nota: No es necesario acumular datos porque sí. La relevancia es importante. |
Históricos |
Los datos que se remontan al pasado permiten ver cómo surgió una situación actual como consecuencia de patrones a lo largo del tiempo. Por ejemplo, al analizar las tendencias de ventas en los últimos 10 años para identificar aumentos o disminuciones. |
Coherentes |
A medida que las cosas cambian, los datos deben adaptarse para mantener la coherencia. Los datos sobre salarios y precios ajustados en función de la inflación son un buen ejemplo de ello. |
Con variables múltiples |
Los datos deben incluir variables cuantitativas (medibles numéricamente) y cualitativas (características no medibles numéricamente). Cuantas más variables incluyan los datos, más información se puede descubrir de ellos. |
Atómicos |
Cuanto más detallados son los datos, más fácil es examinarlos en varios niveles de detalle. Por ejemplo, si quisiera conocer las tendencias en el uso de bicicletas en su estado, resultaría útil ver estas tendencias en función del condado, la ciudad y el barrio. |
Limpios |
Para que los datos sean útiles, deben ser exactos, precisos y no deben contener errores. |
Claros |
Los datos deben escribirse en términos que se puedan entender fácilmente, no en código. Por ejemplo, los valores unifamiliares, casa convertida para dos familias y casa adosada para el tipo de vivienda son mucho más fáciles de entender que 1Fam, 2fmCon y TwnhsE. |
Con estructura dimensional |
Una buena forma de estructurar los datos es organizarlos en dos tipos: Dimensiones (valores cualitativos) y medidas (valores cuantitativos). Esta es la estructura de organización que se usa en Tableau para interpretar los datos. |
Segmentado de forma enriquecida |
Los grupos, basados en características similares, deben integrarse en los datos para facilitar el análisis. Por ejemplo, los datos sobre películas pueden agruparse por género (acción, ciencia ficción, románticas, comedia, etc.). |
De pedigrí conocido |
Para confiar en los datos, debe conocer su trasfondo: de dónde provienen y cómo se han modificado desde entonces. |
Tener en cuenta algunos datos de ejemplo
Tiene un archivo de Excel con el nombre January-reactors-operating (Enero-reactores-en-explotación) que descargó de Data.gov, un sitio web para acceder a los datos públicos del gobierno de los Estados Unidos. El archivo incluye información sobre ubicaciones y capacidad energética de los reactores nucleares de Estados Unidos. Esta imagen es una instantánea de las primeras 16 filas de datos.
Piense en las características de los datos útiles. Sabe que la fuente de este conjunto de datos es Data.gov, un sitio web donde puede acceder a los datos públicos del gobierno de Estados Unidos que incluye datos de 2003 a 2018. ¡Pongamos a prueba lo que aprendió! ¿Qué dos características de los datos útiles están representadas? En la actividad a continuación, complete el espacio en blanco de cada oración.
Ahora ya conoce algunas características de los datos eficaces. En la siguiente unidad, aprenderá cómo se organizan los datos y cuál es la diferencia entre los datos bien estructurados y aquellos presentan un formato deficiente.
Recursos
- Libro: Few, S. (2021). Now You See It: An Introduction to Visual Data Sensemaking (2da. edición). Analytics Press.
- Sitio web: Perceptual Edge, el sitio web profesional de Stephen Few