Conozca el ajuste

Objetivos de aprendizaje

Después de completar esta unidad, podrá:

Describir el ajuste.
Describir el funcionamiento del ajuste.

Antes de empezar

Esta insignia contiene ideas y términos que se describen en las insignias Aspectos básicos del procesamiento de lenguaje natural, Modelos de lenguaje grande y Nociones básicas de las solicitudes. Lo recomendable es que primero obtenga esas insignias.

Un repaso rápido

Los modelos de lenguaje grande (LLM), al igual que la serie de modelos de GPT de OpenAI, son redes neuronales masivas que están entrenadas para comprender y generar textos similares a los que producen las personas. Se entrenan con una gran cantidad de datos, por lo que tienen una amplia base de conocimientos generales.

¿Qué es el ajuste?

El ajuste es el proceso de tomar un modelo de lenguaje con entrenamiento previo, grande, amplio y general, y entrenarlo aún más (o “ajustarlo”) según un conjunto de datos más pequeño y específico. Para los LLM, esto implica transformar un modelo de base general en un modelo especializado para un caso de uso en particular. Esto ayuda a que el modelo se especialice más en una tarea específica. El ajuste se agrega al modelo con entrenamiento previo y modifica la ponderación para alcanzar un mejor desempeño.

En otras palabras... Supongamos que tiene un asistente digital que puede cocinar bien cualquier plato. Si bien puede cocinar una versión sencilla de cualquier plato, usted está buscando un increíble plato italiano que le haga recordar a su viaje por Venecia. Debe dominar los matices de la cocina italiana. Para lograr esto, lo debe exponer a más recetas y técnicas italianas para perfeccionar sus habilidades existentes. Es parecido a lo que sucede con el ajuste.

Aprendizaje con pocos ejemplos

El aprendizaje con pocos ejemplos es un tipo de ajuste que usa una pequeña cantidad de ejemplos de tareas específicas en la solicitud, lo cual le permite al modelo mejorar su desempeño. Ya podemos hacer esto con el diseño de solicitudes y el LLM de base. Incluimos instrucciones y, a veces, varios ejemplos en una solicitud. De alguna manera, ingresamos datos en la solicitud previamente con un conjunto de datos pequeño que es relevante para la tarea.

Para mejorar el aprendizaje con pocos ejemplos, el ajuste se entrena con un conjunto de ejemplos mucho más grande del que se suele poder integrar en la solicitud. Este entrenamiento de mayor alcance mejora el desempeño de tareas específicas. Una vez que se ajustó un modelo, no necesitará proporcionar tantos ejemplos en la solicitud. Se ahorra dinero y se aceleran las solicitudes y respuestas.

Funcionamiento del ajuste

Repasemos algunos de los pasos necesarios para ajustar un LLM.

Seleccionar el conjunto de datos especializado

El primer paso es elegir un conjunto de datos que represente la tarea específica que le interesa. En general, este conjunto de datos es mucho más pequeño que el que usó para el entrenamiento inicial. Enfóquese en estas áreas clave.

El conjunto de datos seleccionado debería alinearse con la tarea o el dominio específicos al que está orientado. Por ejemplo, si está ajustando un modelo para hacer diagnósticos médicos según el expediente del paciente, su conjunto de datos debe estar conformado por notas clínicas relevantes y los diagnósticos correspondientes.
La calidad de los datos, como siempre, es importante para los datos especializados. En general, esto requiere un conjunto de datos más pequeño y centralizado. Sin embargo, es esencial tener una cantidad suficiente de datos para capturar los matices de la tarea específica. Los datos ruidosos, llenos de errores o de información irrelevante, pueden dificultar el proceso de ajuste. Es crucial limpiar y procesar previamente los datos.

Adaptar el modelo

Si bien la arquitectura principal del modelo que se está ajustando permanece igual, algunos hiperparámetros (como el índice de aprendizaje) se pueden ajustar para que se adapten a los matices del nuevo conjunto de datos.

Continuar el entrenamiento

En lugar de empezar el entrenamiento desde cero, sigue entrenando el modelo que se entrenó previamente con el nuevo conjunto de datos. Ya que el modelo adquirió muchísimos conocimientos generales, puede aprender rápidamente los detalles del nuevo conjunto de datos.

Aplicar técnicas de regularización

Para evitar que el modelo se adapte demasiado al nuevo conjunto de datos (un fenómeno denominado “exceso de adecuación”), se pueden aplicar técnicas como el abandono o el decaimiento de pesos.

Resumen

El ajuste es una herramienta poderosa para adaptar modelos generales de gran tamaño a tareas específicas. Sin embargo, como toda herramienta, su éxito depende de las técnicas que se usen y de lo que se tenga en cuenta al aplicarlas. La próxima unidad abarca por qué debería ajustar su LLM.

Recursos

Documentación de OpenAI: Ajuste

Estimación de tiempo

Temas

¿Necesita ayuda?