Skip to main content

Comprenda los datos y su importancia

Objetivos de aprendizaje

Después de completar esta unidad, podrá:

  • Explicar los tipos de datos y formatos, como tabular, texto, imágenes, audios y videos.
  • Utilizar técnicas para identificar tipos de fuentes de datos y métodos de recopilación de datos.
  • Comprender el impacto de los datos erróneos en la toma de decisiones.

Clasificación y tipos de datos

Dado que los datos son un componente esencial de las industrias actuales, es importante comprender los diferentes tipos de datos, las fuentes de datos y los métodos de recopilación, así como la importancia de los datos en la IA.

Clasificación de los datos

Los datos se pueden clasificar en tres categorías principales: estructurados, no estructurados y semiestructurados. 

  • Los datos estructurados están organizados y tienen un formato específico, como tablas u hojas de cálculo. Tienen un formato bien definido y son fáciles de buscar y analizar. Ejemplos de datos estructurados son las hojas de cálculo, las bases de datos, los lagos de datos y los almacenes.
  • Los datos no estructurados, por el contrario, no tienen un formato específico y pueden incluir documentos de texto, imágenes, audios y videos. Los datos no estructurados son más difíciles de analizar, pero pueden proporcionar información valiosa sobre el comportamiento de los clientes y las tendencias del mercado. Ejemplos de datos no estructurados son las publicaciones en redes sociales, las opiniones de los clientes y los mensajes de email.
  • Los datos semiestructurados son una combinación de datos estructurados y no estructurados. Tienen una estructura definida, pero también pueden contener elementos no estructurados. Ejemplos de datos semiestructurados son los archivos XML (Extensible Markup Language) o JSON (JavaScript Object Notation).

Formato de datos

Los datos también se pueden clasificar por su formato. 

  • Los datos tabulares son datos estructurados que se organizan en filas y columnas, como en una hoja de cálculo.
  • Los datos de texto incluyen datos no estructurados en forma de documentos de texto, como emails o informes.
  • Los datos de imagen pueden incluir información visual en forma de logotipos de marcas, gráficos e infografías.
  • Los datos geoespaciales se refieren a las coordenadas geográficas y la forma de los mapas de países, que representan información esencial sobre la superficie de la Tierra.
  • Los datos de series temporales se refieren a datos que pueden contener información a lo largo de un periodo, por ejemplo, los precios diarios de las acciones durante el último año.

Tipos de datos

Otra forma de clasificar los datos es por su tipo, que puede ser cuantitativo o cualitativo. 

  • Los datos cuantitativos son numéricos y se pueden medir y analizar estadísticamente. Ejemplos de datos cuantitativos son las cifras de ventas, el recuento de clientes en función de su ubicación geográfica y el tráfico de un sitio web.
  • Los datos cualitativos, en cambio, no son numéricos e incluyen textos, imágenes y videos. En muchos casos, los datos cualitativos pueden ser más difíciles de analizar, pero pueden proporcionar información valiosa sobre las preferencias y opiniones de los clientes. Ejemplos de datos cualitativos son las opiniones de los clientes, las publicaciones en redes sociales y las respuestas a encuestas.

Tanto los datos cuantitativos como los cualitativos son importantes en el campo del análisis de datos en una amplia gama de industrias. Para obtener más información sobre este tema, consulte el módulo de Trailhead Variables y tipos de campo.

Comprender los diferentes tipos y clasificaciones de datos es importante para un análisis de datos eficaz. Al clasificar los datos en categorías estructuradas, no estructuradas y semiestructuradas, y diferenciar entre datos cuantitativos y cualitativos, las organizaciones pueden elegir con mayor eficacia el enfoque de análisis adecuado para obtener información. La exploración de distintos formatos, como tablas, texto e imágenes, hace que el análisis y la interpretación de los datos sean más eficaces.

Métodos de recopilación de datos

Identificar las fuentes de datos es un paso importante en el análisis de datos. Los datos se pueden obtener de diversas fuentes, como conjuntos de datos internos, externos y públicos. Las fuentes de datos internas incluyen los datos que se generan dentro de una organización, como los datos de ventas y de los clientes. Las fuentes de datos externas incluyen datos que se obtienen fuera de la organización, como estudios de mercado y datos de redes sociales. Los conjuntos de datos públicos son conjuntos de datos de libre acceso que se pueden utilizar para el análisis y la investigación.

La recopilación, el etiquetado y la limpieza de datos son pasos importantes en el análisis de datos. 

  • La recopilación de datos es el proceso de reunir datos de diversas fuentes.
  • El etiquetado de datos consiste en asignar etiquetas a los datos para facilitar su búsqueda y análisis. Esto puede incluir la asignación de categorías a los datos, como grupos de edad o categorías de productos.
  • La depuración de datos es el proceso de eliminar o corregir errores e incoherencias en los datos para mejorar su calidad y precisión. La depuración de datos puede incluir la eliminación de datos duplicados, la corrección de errores ortográficos y la cumplimentación de los datos que faltan.

Se pueden utilizar varias técnicas para recopilar datos, como encuestas, entrevistas, observación y raspado web. 

  • Las encuestas recogen datos de un grupo de personas mediante una serie de preguntas. Se pueden realizar en línea o en persona, y a menudo se utilizan para recopilar datos sobre las preferencias y opiniones de los clientes.
  • Las entrevistas recogen datos de personas a través de conversaciones individuales. Pueden proporcionar datos más detallados que las encuestas, pero también pueden llevar mucho tiempo.
  • La observación recoge datos mediante la observación y escucha de personas o acontecimientos. Esto puede proporcionar datos valiosos sobre el comportamiento de los clientes y las interacciones con los productos.
  • El raspado web recoge datos de sitios web mediante herramientas informáticas. Se puede utilizar para recopilar datos sobre la competencia, las tendencias del mercado y las opiniones de los clientes.

El análisis exploratorio de datos (EDA) suele ser el primer paso de cualquier proyecto de datos. El objetivo del EDA es conocer los patrones generales de los datos y comprender las percepciones y características clave de estos.

La importancia de los datos en la IA

Los datos son un componente esencial de la IA, y su calidad y validez son fundamentales para el éxito de las aplicaciones de IA. Entre las consideraciones relativas a la calidad y validez de los datos se incluye garantizar que los datos sean precisos, completos y representativos de la población estudiada. Los datos erróneos pueden tener un impacto significativo en la toma de decisiones y en la IA, y dar lugar a resultados inexactos o sesgados.

La calidad de los datos es importante desde el principio de un proyecto de IA. He aquí algunas áreas de consideración que ponen de relieve la importancia de los datos y su calidad en la IA.

  • Entrenamiento y desempeño: la calidad de los datos utilizados para el entrenamiento de los modelos de IA influye directamente en su desempeño. Los datos de alta calidad garantizan que el modelo aprenda patrones precisos y representativos, lo que conduce a predicciones más fiables y a una mejor toma de decisiones.
  • Precisión y sesgo: la calidad de los datos es vital para mitigar los sesgos en los sistemas de IA. Los datos sesgados o inexactos pueden conducir a resultados tendenciosos y, así, reforzar las desigualdades existentes o perpetuar prácticas injustas. Al garantizar la calidad de los datos, las organizaciones pueden aspirar a la equidad y minimizar los resultados discriminatorios.
  • Generalización y solidez: Los modelos de IA deberían poder manejar datos nuevos y desconocidos de forma efectiva y tener un desempeño eficiente y parejo en distintas situaciones. Los datos de alta calidad garantizan que el modelo aprenda patrones relevantes y diversos, lo que le permite hacer predicciones precisas y manejar nuevas situaciones con eficacia.
  • Confianza y transparencia: la calidad de los datos está estrechamente ligada a la fiabilidad y transparencia de los sistemas de IA. Las partes interesadas deben confiar en los datos utilizados y en los procesos implicados. Las prácticas transparentes en materia de datos, junto con la garantía de calidad de estos, ayudan a generar confianza y fomentan la responsabilidad.
  • Gobernanza de datos y cumplimiento: las medidas adecuadas de calidad de los datos son esenciales para mantener la gobernanza de los datos y el cumplimiento de los requisitos reglamentarios. Las organizaciones se deben asegurar de que los datos utilizados en los sistemas de IA se adhieren a las normas legales, de privacidad y de seguridad.

Para lograr una alta calidad de los datos en la IA, se necesita un ciclo de vida de datos sólido que se centre en la diversidad de los datos, la representatividad y el tratamiento de posibles sesgos. El ciclo de vida de los datos consta de varias etapas, y la calidad de los datos es importante en todas ellas. El ciclo de vida de los datos incluye su recopilación, almacenamiento, procesamiento, análisis, intercambio, conservación y eliminación. En la siguiente unidad, obtendrá más información sobre el ciclo de vida de los datos. 

En esta unidad, ha aprendido sobre los diferentes tipos de datos, fuentes de datos y métodos de recopilación, y la importancia de los datos en la IA. A continuación, aprenderá los conceptos básicos del aprendizaje automático y en qué se diferencia de la programación tradicional. Además, aprenderá sobre las técnicas de IA y sus aplicaciones en el mundo real.

Recursos 

Comparta sus comentarios de Trailhead en la Ayuda de Salesforce.

Nos encantaría saber más sobre su experiencia con Trailhead. Ahora puede acceder al nuevo formulario de comentarios en cualquier momento en el sitio de Ayuda de Salesforce.

Más información Continuar a Compartir comentarios