Prepararse para el ajuste

Objetivos de aprendizaje

Después de completar esta unidad, podrá:

Explicar la preparación del conjunto de datos para el ajuste.
Dar cuenta en detalle del proceso de ajuste.

Preparar su conjunto de datos

El primer paso consiste en preparar el conjunto de datos específico de la tarea para el ajuste. Esto puede incluir la limpieza de datos, normalización de textos y conversión de datos a un formato que sea compatible con los requisitos de entrada de LLM (en otras palabras, el etiquetado de datos). Es esencial garantizar que los datos representen la tarea y el dominio y que abarquen un rango de escenarios que se espera que el modelo enfrente durante la producción. Así es como puede preparar su conjunto de datos para el ajuste.

Recopilación de datos

Acumule datos relevantes para el dominio o la tarea específica. Puede que esto implique recopilar interacciones de usuarios o usar datos específicos del dominio.

Limpieza de datos

Elimine datos irrelevantes, corrija errores y, en lo posible, proteja la información confidencial.

División de conjuntos de datos

Dividir los datos en conjuntos de entrenamiento, validación y prueba. El modelo se entrena a partir del conjunto de entrenamiento, los hiperparámetros se ajustan con el conjunto de validación y el desempeño se evalúa según el conjunto de pruebas.

Configurar su modelo

Seleccionar el modelo de base adecuado y el método de ajuste depende de la tarea específica y los datos disponibles. Hay varias arquitecturas de LLM que puede elegir, incluidas GPT-3.5 Turbo, BERT y RoBERTa, cada una con sus puntos fuertes y débiles. El método de ajuste también puede variar según la tarea y los datos, como el aprendizaje por transferencia, el ajuste secuencial o el ajuste específico de la tarea.

Selección del modelo

Tenga en cuenta lo siguiente al elegir su modelo de base.

Si el modelo se adapta a su tarea específica
El tamaño de entrada y respuesta del modelo
El tamaño de su conjunto de datos
Si la infraestructura técnica es adecuada para la potencia informática que requiere el ajuste

Selección de arquitectura

Ajuste determinados componentes según la tarea, como la capa final para las tareas de clasificación. Tenga en cuenta que la arquitectura de modelo será la misma.

Opciones de hiperparámetros

Determine los valores para el índice de aprendizaje, el tamaño de lote, el número de epochs y los parámetros de regularización. A veces, un índice de aprendizaje más lento es mejor que actualizaciones agresivas que pueden hacer olvidar al modelo el conocimiento del entrenamiento previo.

Ajustar su modelo

Una vez que se seleccionaron el LLM y el método de ajuste, se debe cargar el modelo con entrenamiento previo en la memoria. Este paso inicia la ponderación del modelo según los valores de entrenamiento previo, lo cual acelera el proceso de ajuste y garantiza que el modelo haya adquirido un entendimiento general del lenguaje.

Empezar por la ponderación con entrenamiento previo

Empiece por la ponderación a partir del modelo con entrenamiento previo. Esta es la esencia del aprendizaje por transferencia: aprovechar el conocimiento adquirido de entrenamientos anteriores.

Aprendizaje adaptativo

En algunos escenarios avanzados, puede que implemente técnicas que adaptan el índice de aprendizaje para diferentes capas. Por ejemplo, las capas anteriores (que capturan las funciones generales) se pueden actualizar con ritmos de aprendizaje más lentos en comparación con las capas posteriores.

Regularización

Las técnicas como el abandono (dropout), el decaimiento de pesos (weight decay) o la normalización de capas pueden ser cruciales para evitar el exceso de adecuación, en especial cuando el conjunto de datos de ajuste es relativamente pequeño.

Supervisar y evaluar su modelo

Este paso implica entrenar el LLM con entrenamiento previo en el conjunto de datos de una tarea específica. El proceso de entrenamiento implica la optimización de los pesos y parámetros del modelo para minimizar la función de pérdida y mejorar su desempeño en la tarea. Es posible que el proceso de ajuste implique varias rondas de entrenamiento en el conjunto de entrenamientos, de validación en el conjunto de validaciones y de ajustes de hiperparámetros para optimizar el desempeño del modelo.

Realizar un seguimiento de pérdidas y mediciones

Supervise de forma continua las pérdidas en sus conjuntos de entrenamiento y validación durante el entrenamiento. Esto ayuda a detectar el exceso de adecuación o problemas en el entrenamiento.

Interrupción temprana

Detenga el entrenamiento de forma abrupta si el desempeño en el conjunto de validación empieza a degradarse (incluso si el desempeño del conjunto de entrenamiento está mejorando); es una señal de exceso de adecuación. Esto ayuda a evitar que el modelo se adecue demasiado a los datos de entrenamiento.

Mediciones de evaluación

Use mediciones apropiadas (como exactitud, puntuaje F1, puntuaje BLEU) para medir el desempeño del modelo en el conjunto de pruebas. Las mediciones que se usan dependen de la tarea que se realiza, como clasificación, regresiones, generación, entre otras tareas.

Publicar modificaciones posteriores al ajuste

Una vez que se complete el proceso de ajuste, se necesita evaluar el desempeño del modelo en el conjunto de pruebas. Este paso ayuda a garantizar que el modelo se está generalizando correctamente según los datos nuevos y está funcionando correctamente en la tarea específica. Las mediciones comunes que se usan para la evaluación incluyen exactitud, precisión y recuperación.

Calibración

Ajuste las respuestas del modelo para reflejar mejor las probabilidades verdaderas. A veces, es posible que las predicciones del modelo ajustado sean demasiado o poco certeras.

Bucle de comentarios

Configure un sistema donde los usuarios finales comenten sobre las respuestas del modelo. Estos comentarios se pueden usar para realizar más rondas de ajuste y, así, generar mejoras continuas.

Implementar su modelo

Después de evaluar el modelo con ajuste, se puede implementar en los entornos de producción. El proceso de implementación puede implicar la integración del modelo en un sistema más grande, la configuración de la infraestructura necesaria y la supervisión del desempeño del modelo en escenarios de la vida real.

Tamaño de modelo

Considere la filtración o reducción del modelo después del ajuste para reducir el tamaño del modelo sin afectar el desempeño significativamente. Esto puede variar según dónde se implemente su modelo, por ejemplo, dispositivos de borde, servidores web, etc.

Resumen

Si bien, en teoría, el ajuste parece un proceso directo, en la práctica, implica una serie de pasos y decisiones que se deben tener en cuenta. Cada etapa, desde la preparación de datos hasta la implementación, puede impactar de forma significativa en la efectividad y eficiencia del modelo en la tarea o el dominio de destino.

¿Necesita ayuda?