Comprender los datos y su importancia
Objetivos de aprendizaje
Después de completar esta unidad, podrá:
- Explicar los tipos de datos y formatos, como tablas, texto, imágenes, audios y vídeos.
- Utilizar técnicas para identificar los tipos de fuentes de datos y los métodos de recopilación de datos.
- Comprender el impacto de los datos erróneos en la toma de decisiones.
Clasificación y tipos de datos
Hoy en día, los datos son un componente fundamental en las empresas, por lo que es importante comprender los diferentes tipos de datos, de fuentes de datos y de métodos de recopilación, al igual que la importancia de los datos en la IA.
Clasificación de datos
Los datos se pueden clasificar en tres categorías principales: estructurados, no estructurados y semiestructurados.
- Los datos estructurados están organizados de una manera específica y tienen un formato en concreto, como en tablas o en hojas de cálculos. Tienen un formato bien definido y resulta sencillo buscar y analizar. Algunos ejemplos de datos estructurados son las hojas de cálculo, las bases de datos, los lagos de datos y los almacenes de datos.
- Por otra parte, los datos no estructurados no tienen un formato específico y pueden incluir documentos de texto, imágenes, audios y vídeos. Los datos no estructurados son más difíciles de analizar, pero pueden proporcionar información de valor en cuanto al comportamiento del cliente y las tendencias de mercado. Algunos ejemplos de datos no estructurados son las publicaciones en redes sociales, las reseñas de clientes y los mensajes de correo electrónico.
- Los datos semiestructurados son una combinación de datos estructurados y no estructurados. Parte de su estructura está definida, pero también contienen elementos no estructurados. Algunos ejemplos de datos semiestructurados son los archivos XML (Extensible Markup Language) o JSON (JavaScript Object Notation).
Formato de datos
Los datos también pueden clasificarse por su formato.
- Los datos tabulares son datos estructurados que se organizan en filas y columnas, como en una hoja de cálculo.
- Los datos de texto incluyen datos no estructurados en forma de documentos de texto, como correos electrónicos o informes.
- Los datos de imágenes pueden incluir información visual en forma de logotipo de marca, gráficos e infográficos.
- Los datos geoespaciales hacen referencia a las coordenadas geográficas y a la forma de los mapas de los países, representando información esencial sobre la superficie de la Tierra.
- Los datos de serie temporal hacen referencia a los datos que pueden contener información sobre un periodo de tiempo, por ejemplo, las cotizaciones bursátiles diarias durante el último año.
Tipos de datos
Otra manera de clasificar los datos es por su tipo, que pueden ser cuantitativo o cualitativo.
- Los datos cuantitativos son numéricos y se pueden medir y analizar de manera estadística. Algunos ejemplos de datos cuantitativos son las cifras de ventas, los recuentos de clientes según la ubicación geográfica y el tráfico de los sitios web.
- Por su parte, los datos cualitativos no son numéricos e incluyen texto, imágenes y vídeos. En muchos casos, los datos cualitativos son más difíciles de analizar, pero pueden proporcionar información de valor en cuanto a las preferencias y opiniones del cliente. Algunos ejemplos de datos cualitativos son las reseñas de clientes, las publicaciones en redes sociales y las respuestas a encuestas.
Tanto los datos cuantitativos como los cualitativos son importantes en el campo del análisis de datos en una gran cantidad de sectores. Para obtener más información sobre este tema, consulte el módulo de Trailhead Variables y tipos de campos.
Comprender los diferentes tipos de datos y su clasificación es importante para realizar análisis de datos eficaces. Al categorizar los datos en estructurados, no estructurados y semiestructurados, y al diferenciar entre datos cuantitativos y cualitativos, las organizaciones pueden ser más eficaces al elegir el enfoque de análisis apropiado para obtener información a partir de ellos. El análisis de los datos y su interpretación serán más eficaces si se exploran los diferentes formatos, como las tablas, los textos y las imágenes.
Métodos de recopilación de datos
La identificación de las fuentes de datos es un paso importante en el análisis de datos. Los datos pueden obtenerse de varias fuentes, entre las que se incluyen los conjuntos de datos internos, externos y públicos. Las fuentes de datos internas incluyen datos generados en una organización, como los datos de ventas y los datos de clientes. Las fuentes de datos externas incluyen datos ajenos a la organización, como el estudio de mercado y los datos de redes sociales. Los conjuntos de datos públicos son conjuntos de datos gratuitos que se pueden utilizar para realizar análisis e investigaciones.
La recopilación, el etiquetado y la limpieza de datos son pasos importantes en el análisis de datos.
- La recopilación de datos es el proceso de recopilar datos de varias fuentes.
- El etiquetado de datos consiste en asignar etiquetas a los datos para hacer que sea más sencillo buscarlos y analizarlos. Esto incluye asignar categorías a los datos, como grupos de edad o categorías de productos.
- La limpieza de datos es el proceso de eliminar o corregir errores e inconsistencias en los datos a fin de mejorar la calidad y la precisión. La limpieza de datos implica eliminar los datos duplicados, corregir los errores ortográficos y completar los datos que faltan.
Se pueden utilizar varias técnicas para recopilar datos, como encuestas, entrevistas, observación y "web scraping".
- Las encuestas recopilan datos de un grupo de personas mediante una serie de preguntas. Pueden realizarse en línea o en persona; normalmente, se utilizan para recopilar datos de las preferencias y opiniones de los clientes.
- Las entrevistas recopilan datos de las personas mediante conversaciones individuales. Pueden proporcionar datos más detallados que las encuestas, pero también conllevan más tiempo.
- La observación consiste en recopilar datos observando y escuchando a personas o eventos. Esto puede proporcionar datos de valor en cuanto a los comportamientos de los clientes y a las interacciones del producto.
- El "web scraping" recopila datos de los sitios web utilizando herramientas de software. Se puede utilizar para recopilar datos sobre la competencia, tendencias de mercado y reseñas de clientes.
Los análisis de datos exploratorios (EDA) suele ser el primer paso en cualquier proyecto de datos. El objetivo del EDA es aprender patrones generales de los datos y comprender la información y las características clave sobre ellos.
La importancia de los datos en la IA
Los datos son un componente fundamental de la IA, y la calidad y la validez de los datos son esenciales para que las aplicaciones de IA tengan éxito. Algunas consideraciones para la calidad y la validez de los datos son: asegurar que los datos sean precisos y estén completos, y que se estudie a la población. Los datos erróneos pueden tener un impacto significativo en la toma de decisiones y en la IA, lo que puede generar resultados imprecisos o sesgados.
La calidad de los datos es importante desde el principio de un proyecto de IA. Estas son algunas áreas de consideración que resaltan la importancia de los datos y de la calidad de los datos en la IA.
- Entrenamiento y rendimiento: La calidad de los datos utilizados en el entrenamiento de los modelos de IA afecta directamente a su rendimiento. Los datos de buena calidad aseguran que el modelo aprenda patrones precisos y representativos, lo cual tiene como resultado predicciones más fiables y mejores tomas de decisiones.
- Precisión y sesgo: La calidad de los datos es vital para mitigar los sesgos en los sistemas de IA. Los datos sesgados o imprecisos pueden producir resultados sesgados, fortaleciendo las desigualdades existentes o perpetuando las prácticas injustas. Al asegurar la calidad de los datos, las organizaciones pueden luchar por la justicia y minimizar los resultados discriminatorios.
- Generalización y solidez: Los modelos de IA deberían poder gestionar los datos nuevos y no conocidos de manera eficaz, y tener un buen desempeño constantemente en diferentes situaciones. Los datos de buena calidad aseguran que el modelo aprenda patrones relevantes y diversos, lo que permite obtener predicciones precisas y manejar las nuevas situaciones de manera eficaz.
- Confianza y transparencia: La calidad de los datos está muy ligada a la confianza y transparencia de los sistemas de IA. Las partes interesadas deben confiar en los datos utilizados y en el proceso que implica. Las prácticas de transparencia de datos junto con el control de calidad ayudan a generar confianza y a fomentar la responsabilidad.
- Gobernanza de datos y cumplimiento: Es fundamental aplicar medidas de calidad apropiadas de los datos para mantener la gobernanza de datos y el cumplimiento de acuerdo con los requisitos normativos. Las organizaciones deben asegurar que los datos utilizados en los sistemas de IA se adhieran a las normas de privacidad, seguridad y disposiciones legales.
Para obtener datos de buena calidad en la IA, es necesario un ciclo de vida sólido de los datos que se centre en la diversidad y representatividad de los datos, así como en abordar los posibles sesgos. Existen varias etapas en el ciclo de vida de los datos, y la calidad de los datos es importante en cada una de ellas. El ciclo de vida de los datos incluye la recopilación, el almacenamiento, el procesamiento, el análisis, la colaboración, la retención y la eliminación. En la siguiente unidad, obtendrá más información sobre el ciclo de vida de los datos.
En esta unidad, ha aprendido sobre los diferentes tipos de datos, de fuentes de datos y de métodos de recopilación, y sobre la importancia de los datos en la IA. A continuación, conozca los aspectos básicos sobre el aprendizaje automático y en qué se diferencia de la programación tradicional. Además, aprenderá las técnicas de IA y sus aplicaciones en el mundo real.
Recursos
- GitHub: Data Literacy
- Sitio externo: How Important Is Data in Machine Learning?
- Trailhead: Calidad de datos
- Trailhead: Variables y tipos de campos
- Trailhead: Datos bien estructurados