Aprender los aspectos básicos de los datos
Objetivos de aprendizaje
Después de completar esta unidad, podrá:
- Describir qué son los datos.
- Describir los diferentes tipos de fuentes de datos.
Introducción
Como ya sabe, la alfabetización de datos es la capacidad de explorar, comprender y comunicarse con datos. ¿Pero qué son los datos exactamente?
Los datos son hechos individuales, estadísticas o elementos de información. Una colección de datos es una colección de hechos. Para ser más específicos, considere esta definición ampliada. Jeffrey Leek, un científico de datos que trabaja como profesor en la universidad Johns Hopkins Bloomberg School of Public Health, comenzó con la definición de datos de Wikipedia y la amplió con una definición propia:
Los datos se componen de valores [sic] de variablescualitativas o cuantitativas que pertenecen a un conjunto de elementos.
Vamos a analizar esto y a definir los términos.
Término |
Definición |
---|---|
Conjunto de elementos |
A veces llamado "población", es el grupo de objetos sobre los que se desea conocer algo. |
Variable |
Una medida, propiedad o característica de un elemento que puede variar o cambiar (en contraposición a las medidas constantes, como Pi, que no cambia). |
Variable cualitativa |
Una variable cualitativa describe cualidades o características, como el país de origen, el género, nombre o color de pelo. |
Variable cuantitativa |
Una variable cuantitativa describe características que pueden medirse, como la altura, el peso o la temperatura. |
¿Está preparado para comprobar sus conocimientos? En la siguiente actividad, determine si cada característica es una variable cualitativa o cuantitativa.
Nota: En inglés, la palabra "data" se suele considerar singular, no plural. Sin embargo, existe un debate continuo sobre si dicha palabra debería considerarse singular o plural. El diccionario Cambridge Dictionary, por ejemplo, designa que la palabra "data" puede ser tanto singular como plural.
¿Cómo se recopilan datos?
Existen varias herramientas y técnicas para recopilar datos, como cuestionarios, entrevistas, observaciones, análisis de documentos, web scraping y mediciones de máquinas. Los datos recibidos o recopilados se denominan datos sin formato. Los datos sin formato, también conocidos como datos de origen o datos primarios, no se han procesado de ninguna manera. Esto significa que no se han ejecutado en ningún software, no se han modificado sus variables, no se ha eliminado ningún tipo de dato ni se han resumido de ninguna manera. Los datos sin formato permiten llevar a cabo el análisis más completo, ya que no se ha eliminado ningún dato ni se han resumido.
Estos son algunos ejemplos de datos sin formato:
- Una bacteria que se ve a través de un microscopio
- Archivos binarios generados por máquinas de mediciones
- Archivos de hojas de cálculo sin formato
- Datos JSON descartados de la API X
- Números recopilados y registrados de forma manual
Tipos de fuentes de datos
Una fuente de datos contiene los datos que se utilizan para explorar, comprender y comunicarse. En Tableau, por ejemplo, cada uno de los gráficos que puede ver cuenta con una fuente de datos conectada que proporciona datos. Utilice estas tarjetas interactivas para aprender sobre las fuentes de datos más comunes.
Lea el término que aparece en cada una de ellas y, a continuación, haga clic en la tarjeta para revelar la descripción del término. Haga clic en la flecha hacia la derecha para ir a la siguiente tarjeta, y en la flecha hacia la izquierda para volver a la tarjeta anterior.
Recursos
- Blog de Tableau: Find hidden insights in your data: Ask why and why again
- Libro: Few, S. (2021). Now You See It: An Introduction to Visual Data Sensemaking (segunda edición). Analytics Press, 29-32.
- Sitio web: Perceptual Edge, Stephen Few’s professional website
- Coursera: The Data Scientist’s Toolbox (es necesario registrarse en el curso)
- Tableau: Mission
Ahora ya sabe qué es la alfabetización de datos, lo importante que son las preguntas y qué características resultan útiles para trabajar con datos de manera eficaz. También sabe qué son los datos, cómo se recopilan y dónde se encuentran.