Introducción al ajuste
Objetivos de aprendizaje
Después de completar esta unidad, podrá:
- Describir el ajuste.
- Describir los mecanismo del ajuste.
Antes de empezar
Esta insignia contiene términos e ideas que se describen en las insignias Aspectos básicos sobre el procesamiento de lenguaje natural, Modelos de lenguaje grandes y Aspectos fundamentales de las solicitudes. Es recomendable que consiga esas insignias primero.
Recordatorio rápido
Los modelos de lenguaje grandes (LLM), como las series de modelo GPT de OpenAI, son redes neuronales masivas entrenadas para comprender y generar textos parecidos a los de los seres humanos. Se entrenan con enormes cantidades de datos, por lo que cuentan con una base de conocimientos amplia y general.
¿Qué es el ajuste?
El proceso de ajuste consiste en tomar un modelo de lenguaje grande, amplio y entrenado previamente, y entrenarlo (o ajustarlo) en función de un conjunto de datos más pequeño y específico. Para los modelos de lenguaje grandes, esto implica transformar un modelo base con un propósito general en un modelo especializado para un caso de uso específico. Esto ayuda a que el modelo sea más especializado para una tarea en concreto. El proceso de ajuste se agrega a un modelo entrenado previamente y modifica sus pesos a fin de conseguir un mejor rendimiento.
En otras palabras, supongamos que tiene un asistente digital que puede cocinar cualquier plato bastante bien. A pesar de que puede realizar una versión básica de cualquier plato, usted quiere conseguir un plato italiano increíble que recuerda de su viaje a Venecia. El asistente debe dominar las nociones de la cocina italiana. Para conseguirlo, le mostrará más recetas y técnicas italianas, mejorando así sus habilidades existentes. Esto es similar a lo que ocurre con el ajuste.
Aprendizaje few-shot
El aprendizaje few-shot es un tipo de ajuste que utiliza un número más pequeño de ejemplos de una tarea específica en la solicitud, lo que permite que el modelo realice mejor una tarea. Podemos hacer esto con el diseño de la solicitud y el gran modelo de lenguaje base. Incluimos instrucciones y, a veces, algunos ejemplos en una solicitud. En cierto sentido, alimentar previamente la solicitud con un conjunto de datos pequeño resulta oportuno para la tarea.
El ajuste mejora el aprendizaje few-shot mediante el entrenamiento de un conjunto de ejemplos mucho más grande del que puede acoger la solicitud. Este entrenamiento prolongado puede tener como resultado un mejor rendimiento en tareas específicas. Después de que el modelo se haya ajustado, no tendrá que proporcionar muchos ejemplos en la solicitud. Esto hace que se ahorren costes y permite solicitudes y respuestas más rápidas.
Mecánicas del ajuste
Veamos algunos de los pasos necesarios para ajustar un gran modelo de lenguaje.
Seleccionar el conjunto de datos especializado
El primer paso es elegir un conjunto de datos que sea representativo de la tarea específica que quiere realiza. Este conjunto de datos suele ser bastante más pequeño que el que se utiliza en el entrenamiento inicial. Céntrese en las zonas principales.
- El conjunto de datos seleccionado debería adaptarse a la tarea o dominio específicos que quiere enfocar. Por ejemplo, si está ajustando un modelo para diagnósticos médicos basándose en notas de los pacientes, el conjunto de datos debería incluir notas clínicas y sus correspondientes diagnósticos.
- La calidad de los datos, como siempre, es importante con los datos especializados. Normalmente se necesita un conjunto de datos más pequeño y centrado. Sin embargo, es fundamental tener una cantidad de datos suficiente para capturar los matices de la tarea específica. Los datos sin sentido, que contienen errores o información irrelevante, pueden dificultar el proceso de ajuste. Es muy importante limpiar los datos y prepararlos para el proceso.
Ajustar el modelo
A pesar de que la arquitectura principal del modelo que se está ajustado sigue igual, algunos hiperparámetros (como el ritmo de aprendizaje) puede ajustarse para adaptarse a las nociones del nuevo conjunto de datos.
Entrenamiento continuado
En lugar de comenzar a entrenar desde cero, puede seguir entrenando el modelo entrenado previamente con el nuevo conjunto de datos. Como el modelo ya ha adquirido conocimientos generales, puede recopilar rápidamente los específicos del nuevo conjunto de datos.
Aplicar técnicas de regularización
Para evitar que el modelo se adapte demasiado al nuevo conjunto de datos (un fenómeno denominado sobreajuste), pueden emplearse técnicas como el "dropout" o el decaimiento de los pesos.
Resumen
El ajuste es una herramienta poderosa para adaptar modelos generales y grandes a tareas específicas. Sin embargo, como cualquier herramienta, su éxito depende de las técnicas utilizadas y las consideraciones que se tengan en cuenta durante su aplicación. En la siguiente unidad veremos en qué ocasiones se deben ajustar los modelos de lenguaje grandes.
Recursos