Aprender los aspectos fundamentales de los datos
Objetivos de aprendizaje
Después de completar esta unidad, podrá:
- Describir qué son los datos.
- Describir los diversos tipos de fuentes de datos.
Introducción
Ya sabe que la alfabetización de datos es la capacidad de explorar y comprender los datos y comunicarse con ellos. ¿Pero qué son exactamente los datos?
Los datos son hechos individuales, estadísticas o elementos de información. Una recopilación de datos es un conjunto de hechos. Explore esta definición aún más específica. Jeffrey Leek, un científico de datos que se desempeña como profesor en la Johns Hopkins Bloomberg School of Public Health, partió de la definición de Wikipedia y la expandió para elaborar su propia definición de datos:
Los datos se componen de [sic] valores de variables cualitativas o cuantitativas que pertenecen a un conjunto de elementos.
Vamos a desglosar y definir estos términos.
Condición |
Definición |
---|---|
Conjunto de elementos |
Hace referencia al grupo de objetos en el que centrará su atención. A veces recibe el nombre de “población”. |
Variable |
Una medición, propiedad o característica de un elemento que puede variar o cambiar (en oposición a una medición constante, como el número Pi, que no varía). |
Variable cualitativa |
Una variable cualitativa describe cualidades o características, como el país de origen, el sexo, el nombre o el color de cabello. |
Variable cuantitativa |
Una variable cuantitativa describe características medibles, como la altura, el peso o la temperatura. |
Es momento de revisar lo que aprendió. ¿Comenzamos? En la siguiente actividad, deberá determinar si cada característica es una variable cualitativa o cuantitativa.
Nota: En este módulo, abordamos la palabra “datos” en plural. No obstante, en inglés se sigue debatiendo si se trata de un término singular o plural. En el Cambridge Dictionary, por ejemplo, se lo designa tanto en singular como en plural.
¿Cómo se recopilan los datos?
Disponemos de varias herramientas y técnicas para recopilar datos, como cuestionarios, entrevistas, observaciones, análisis de documentos, extracción web y mediciones automatizadas. Los datos recibidos o recopilados se conocen como datos sin procesar. Los datos sin procesar, que también se conocen como datos de origen o datos primarios, son aquellos que no se procesaron de ninguna manera. Esto significa que no pasaron por ningún software, que no se modificaron sus variables, que no se eliminaron datos y que no se resumieron de ninguna manera. Los datos sin procesar permiten realizar el análisis más completo posible, ya que no se eliminó ni se resumió ningún dato.
Estos son algunos ejemplos de datos sin procesar:
- Un espécimen de bacteria visto con microscopio
- Archivos binarios generados por máquinas de medición
- Archivos de hoja de cálculo sin formato
- Datos JSON extraídos de la API de X
- Números recopilados y reordenados manualmente
Tipos de fuentes de datos
Una fuente de datos incluye los datos que se utilizan para la exploración, la comprensión y la comunicación. En Tableau, por ejemplo, cada gráfico que ve tiene una fuente de datos conectada que suministra los datos. Use estas tarjetas nemotécnicas interactivas para aprender más sobre las fuentes de datos comunes.
Lea el término de cada tarjeta y, a continuación, haga clic en la tarjeta para mostrar la descripción del término. Haga clic en la flecha hacia abajo para pasar a la tarjeta siguiente y en la flecha hacia arriba para regresar a la tarjeta anterior.
Recursos
- Blog de Tableau: Encuentre información oculta en sus datos: Pregúntese “por qué” una y otra vez
- Libro: Few, S. (2021). Now You See It: An Introduction to Visual Data Sensemaking (2da. edición). Analytics Press, 29-32.
- Sitio web: Perceptual Edge, el sitio web profesional de Stephen Few
- Coursera: La caja de herramientas del científico de datos (se requiere registrarse en el curso)
- Tableau: Misión
Ahora comprende qué significa la alfabetización de datos, conoce la importancia de las preguntas y puede identificar qué rasgos son útiles para trabajar de manera eficaz con los datos. También sabe qué son los datos, cómo se recopilan y dónde se encuentran.