Preparar los datos
Objetivos de aprendizaje
Después de completar esta unidad, podrá:
- Explicar cómo identificar y resolver los desafíos en torno a los datos.
- Definir los requisitos de datos para su proyecto.
La importancia de la preparación de los datos
Para comenzar un proyecto de IA, su organización debe preparar los datos, es decir, que los datos para el proyecto deben ser precisos, accesibles y administrados de manera segura, además de estar disponibles.
En muchas organizaciones, la calidad de los datos constituye una barrera enorme a la hora de implementar proyectos de IA. Y por motivos justificados. Los datos son la base de los algoritmos de IA y les permiten aprender, adaptarse y tomar mejores decisiones. Los datos de alta calidad pueden mejorar la precisión, la eficiencia, la confiabilidad y la equidad de los sistemas de IA.
Es fundamental que resuelva los problemas de calidad de los datos antes de implementar su proyecto de IA. Sin embargo, no permita que la idea de conseguir datos perfectos obstaculice el proyecto. Muchos proyectos quedan atascados en la preparación de los datos porque los equipos intentan alcanzar la perfección. En su lugar, trabaje con su equipo para identificar objetivos razonables en lo que respecta a la preparación de los datos. Puede utilizar la etapa Creación para identificar y resolver las brechas en los datos que podrían afectar el resultado de la IA.
Esta unidad ofrece una visión general sobre el modo de evaluar la calidad de los datos y prepararlos para un proyecto de IA.
Crear un inventario de datos
Becca sabe que la mejor manera de obtener una vista completa de los datos para su proyecto es crear un inventario de datos. Un inventario de datos permite gestionar distintos activos de datos e identificar posibles problemas.
Siga estos pasos para crear su inventario de datos.
- Identifique qué datos necesita para su proyecto.
- Compruebe dónde están almacenados los datos.
- Responda algunas preguntas acerca de sus datos.
- ¿Los datos son estructurados, no estructurados o semiestructurados? (Obtenga más información sobre la clasificación de los datos en el módulo Aspectos fundamentales de los datos para la IA).
- ¿Cada cuánto se actualizan los datos?
- ¿Los datos son estáticos, o bien se actualizan en tiempo real o una vez por hora, por día o por mes?
- ¿Cómo se accede a los datos?
- ¿Se implementaron estándares de gobernanza de datos?
- ¿Qué consideraciones con respecto a los datos pueden presentar desafíos en el proyecto?
- ¿Los datos son estructurados, no estructurados o semiestructurados? (Obtenga más información sobre la clasificación de los datos en el módulo Aspectos fundamentales de los datos para la IA).
Inventario de datos de Coral Cloud
Continuemos con el proyecto de IA de Becca para automatizar el proceso de registración en Coral Cloud Resorts. A modo de recordatorio, este es el plan de implementación de Becca: los puntos clave respecto de los datos figuran en negrita.
- Utilizar un flujo para crear un registro Evento de huésped según los datos de reserva más recientes en Data Cloud.
- Indicarle a Einstein Copilot cómo iniciar el flujo mediante el lenguaje conversacional. Por ejemplo, cuando la huésped Sofía Rodríguez llega para iniciar su estadía, el personal simplemente le pide a Einstein que realice la “Registración de Sofía Rodríguez” y Einstein se encarga de todo.
- Utilizar el Generador de solicitudes para redactar un email de bienvenida personalizado que sugiera excursiones que podrían resultar interesantes para la huésped y enviarlo.
Becca revisa su plan a fin de determinar qué datos necesita para implementar la solución.
- En el paso 1, necesita los datos de la reserva. Coral Cloud utiliza una plataforma externa llamada Reserv-o-matic para almacenar los datos de reservas, así que Becca utiliza Data Cloud para importar esos datos en Salesforce.
- En el paso 2, necesita poder recuperar los datos de la reserva según el nombre del cliente. Los datos del cliente están disponibles en Salesforce.
- En el paso 3, necesita los datos sobre excursiones que el huésped haya comprado anteriormente. El historial de compras del cliente también está disponible en Salesforce.
Después de hacer un seguimiento de las fuentes de datos necesarias, Becca crea un inventario de datos.
Nombre de los datos | Fuentes de datos | Tipo de datos | Cadencia de las actualizaciones | Consideraciones |
---|---|---|---|---|
Registros de contactos | CRM | Estructurados | Diaria | Las fechas tienen el formato MM/DD/AA. |
Reservas | Reserv-o-matic | Estructurados | En tiempo real | Las fechas tienen el formato DD/MM/AA. |
Excursiones | CRM | Estructurados | Diaria | Las fechas tienen el formato MM/DD/AA. |
Obtener los requisitos de datos del proyecto
Los requisitos de datos son los aspectos básicos necesarios para el éxito de un proyecto. Entender los requisitos de datos permite reducir el trabajo innecesario.
Evaluar la calidad de los datos
Los datos de alta calidad ayudan a crear proyectos de IA confiables y eficaces. (Obtenga más información sobre la evaluación de la calidad de los datos en el módulo Calidad de datos). A medida que evalúa la calidad de los datos, identifique los casos en que no satisfacen las expectativas. Estas son las áreas en las que debe realizar una limpieza de datos. La limpieza de datos es el proceso de corregir o eliminar datos incorrectos, dañados, sin el formato correcto, duplicados o incompletos dentro de un conjunto de datos. Esto incluye cerrar las brechas de datos. La limpieza de datos lleva mucho tiempo, de modo que no debe limpiar datos que no necesite para su proyecto.
En el inventario de datos, Becca advierte que las fechas de las reservas tienen el formato DD/MM/AA, mientras que los registros de contactos y las excursiones tienen el formato MM/DD/AA. El formato de las fechas no es uniforme, por lo que estas no cumplen con los criterios de calidad. Becca crea un programa rápido para convertir todas las fechas de reservas al formato MM/DD/AA.
Cuando Becca limpia algunos otros datos con problemas, se da cuenta de que son demasiados datos para que todo quede perfecto. Coral Cloud es un complejo de primer nivel que recibe miles de huéspedes por año. Se desanima, hasta que advierte que estaba sobrestimando los requisitos de datos de su proyecto y limpiando las reservas de años anteriores. Solo necesita limpiar las reservas con fechas futuras, ya que solo esas reservas usarán la registración automática. Becca entonces filtra las reservas por fechas futuras. Al entender los requisitos de datos del proyecto, ahora trabaja con muchos menos registros.
Migrar e integrar datos
Cuando los datos se alojan en distintas fuentes, debe migrarlos. Esto significa traer los datos de una fuente a una fuente central. Si su proyecto está integrado en Salesforce, traiga los datos externos a Salesforce. Después de migrar datos, intégrelos mediante la combinación de datos de distintas fuentes en una vista unificada y completa. Solo migre e integre los datos que necesita para su proyecto. Así, el proyecto será fácil de gestionar, y evitará llenar el sistema con datos innecesarios.
Como el proyecto de Becca implica crear un registro Evento de huésped basado en los datos de reservas que se encuentran en Reserv-o-matic y el registro Contacto en Salesforce, ella sabe que debe vincular los datos de reservas y el registro Contacto. De lo contrario, el flujo no sabrá qué reserva pertenece a cuál contacto. Becca no quiere integrar datos que no sean necesarios, por lo que mira los registros de reservas para identificar qué campos son innecesarios. Advierte que las reservas tienen un campo Notes (Notas) para que los clientes escriban solicitudes especiales. No tiene un formato específico, y muchos clientes lo dejan en blanco. Becca no necesita el campo Notes (Notas) para crear un registro Evento de huésped. Por lo tanto, elimina este campo antes de migrar las reservas a Salesforce.
Becca configura una Transmisión de datos para traerlos desde Reserv-o-matic. Luego, utiliza la función Resolución de identidad para hacer coincidir la Sofía en Salesforce con la Sofía en Reserv-o-matic. Ahora, el registro de Sofía tiene tanto sus datos de contacto de Salesforce como los detalles de su reserva de Reserv-o-matic.
Establecer la gobernanza de datos
Cuantas menos personas trabajen con sus datos, mayor será la coherencia. Limite la gobernanza solo a las personas necesarias. En el caso de Becca, solo se otorgó acceso a ella misma y a su gerente.
Planificar los análisis de datos
Elabore un plan de análisis de datos para medir el éxito. Es importante para supervisar el desempeño y demostrar el retorno de la inversión (ROI) de su proyecto. Demostrar el ROI es clave si desea obtener el respaldo para desarrollar aún más el proyecto o para futuros proyectos de IA.
El plan de análisis de datos debería estar alineado con los objetivos del proyecto que fijó en la unidad anterior. A modo de recordatorio, estos son los objetivos del proyecto de Becca.
- Reducir en un 50 % el tiempo de registración.
- Mantener el mismo nivel de satisfacción del cliente que antes del proyecto o incrementarlo.
Becca decide cómo recopilar y analizar los datos para medir si su proyecto alcanzó estos objetivos. Becca elabora el siguiente plan.
- Calcular el tiempo de uso de las computadoras de la recepción al finalizar cada día. Comparar el tiempo de uso promedio antes y después de implementar el proceso de registración mediante IA.
- Ofrecer una encuesta opcional a los huéspedes al finalizar la estadía para que puedan evaluar su nivel de satisfacción. Comparar el nivel promedio de satisfacción antes y después de implementar el proceso de registración mediante IA.
Ahora, Becca tiene una forma concreta de demostrar la repercusión de su proyecto.
Resolver los desafíos en torno a los datos
Después de definir los requisitos de su proyecto, Becca termina de resolver los desafíos de datos más críticos, que suelen incluir problemas de calidad, obstáculos para la integración, brechas en los datos e incluso una infraestructura de datos desactualizada. Becca sabe que si no resuelve estos problemas desde el principio, el proyecto de IA nuevo de Coral Cloud estará basado en datos poco confiables o inexactos.
¡Becca está avanzando mucho en su proyecto! Gestiona los datos como una verdadera profesional. En la próxima unidad, descubra cómo Becca evalúa los riesgos de su proyecto de IA y lo implementa de forma responsable y confiable.