Prepararse para el ajuste

Objetivos de aprendizaje

Después de completar esta unidad, podrá:

Explicar la preparación del conjunto de datos para el ajuste.
Explicar de forma general el proceso de ajuste.

Preparar el conjunto de datos

El primer paso es para preparar el conjunto de datos específico de la tarea para el ajuste. Esto puede incluir la limpieza de datos, la normalización del texto y la conversión de los datos a un formato que sea compatible con los requisitos de entrada del gran modelo de lenguaje (en otras palabras, etiquetado de datos). Garantizar que los datos sean representativos de la tarea y el dominio es fundamental, al igual que es necesario garantizar que cubra una gran variedad de escenarios que se espera que encuentre el modelo durante la producción. A continuación, explicaremos cómo puede preparar el conjunto de datos para el ajuste.

Recopilación de datos

Acumular datos oportunos para el dominio o la tarea específicos. Esto puede incluir la recopilación de interacciones del usuario o el uso de datos específicos del dominio.

Limpieza de datos

Elimine los datos que no sean relevantes, corrija los errores y anonimice la información confidencial.

División de conjuntos de datos

Divida los datos en datos de entrenamiento, de validación y de prueba. El modelo se entrena con los datos de entrenamiento, los hiperparámetros se ajustan utilizando los datos de validación y el rendimiento se evalúa con los datos de prueba.

Configuración del modelo

Seleccione el modelo base adecuado y ajuste el método según la tarea específica y los datos disponibles. Puede elegir entre varias arquitecturas de modelos de lenguaje grandes, entre las que se encuentran GPT-3.5 Turbo, BERT, y RoBERTa, y cada una de ellas tiene sus ventajas e inconvenientes. El método de ajuste también puede variar en función de la tarea y los datos, como transferir aprendizaje, realizar un ajuste secuencial o un ajuste específico de la tarea.

Selección de modelo

Tenga en cuenta lo siguiente al elegir el modelo base.

El modelo se ajusta a la tarea específica
El tamaño de la carga de entrada y salida del modelo
El tamaño del conjunto de datos
La infraestructura técnica es adecuada para la potencia informática necesaria para el ajuste

Selección de la arquitectura

Ajuste ciertos componentes según la tarea, como la capa final para las tareas de clasificación. Tenga en cuenta que la arquitectura principal del modelo permanecerá igual.

Elecciones de hiperparámetros

Determine los valores para el ritmo de aprendizaje, el tamaño del lote, el número de ejecuciones completas y los parámetros de regularización. A veces, un ritmo de aprendizaje más pequeño es preferible, ya que las actualizaciones agresivas pueden hacer que el modelo olvide los conocimientos del entrenamiento previo.

Ajuste del modelo

Después de haber seleccionado el gran modelo de lenguaje y el método de ajuste, el modelo entrenado previamente debe cargarse en la memoria. Este paso inicia los pesos del modelo en función de los valores entrenados previamente, lo que agiliza el proceso de ajuste y garantiza que el modelo ya haya adquirido conocimientos generales del lenguaje.

Inicialización con pesos entrenados previamente

Empiece con los pesos del modelo entrenado previamente. Esta es la esencia de transferir aprendizaje, utilizando conocimientos de un entrenamiento anterior.

Aprendizaje adaptativo

En algunos escenarios avanzados, es posible que emplee técnicas que se adaptan al ritmo de aprendizaje para diferentes capas. Por ejemplo, es posible que las capas anteriores (que capturan funciones generales) se actualicen con ritmos de aprendizaje más pequeños en comparación con las capas posteriores.

Regularización

Técnicas como el "dropout", el decaimiento de los pesos o la normalización por capas pueden ser fundamentales para evitar el sobreajuste, especialmente cuando el conjunto de datos ajustado es relativamente pequeño.

Supervisión y evaluación del modelo

Este paso implica el entrenamiento del gran modelo de lenguaje entrenado previamente en el conjunto de datos específico de la tarea. El proceso de entrenamiento implica la optimización de los pesos y parámetros del modelo a fin de minimizar la función de pérdida y mejorar el rendimiento en la tarea. Es posible que el proceso de ajuste implique varias rondas de entrenamiento en los datos de entrenamiento, de validación en los datos de validación y el ajuste de hiperparámetros a fin de optimizar el rendimiento del modelo.

Seguimiento de pérdidas y mediciones

Supervise de forma continua la pérdida en los datos de entrenamiento y validación durante el entrenamiento. Esto ayuda a detectar el sobreajuste o los problemas en el entrenamiento.

Detención temprana

Detenga el entrenamiento si el rendimiento de los datos de validación comienza a degradarse (aunque el rendimiento de los datos de entrenamiento comience a mejorar), ya que sería un signo de sobreajuste. Esto ayuda a evitar que el modelo se ajuste demasiado a los datos de entrenamiento.

Mediciones de evaluación

Utilice las mediciones adecuadas (como la precisión, la puntuación F1 o la puntuación BLEU) a fin de evaluar el rendimiento del modelo con los datos de prueba. Las mediciones utilizadas dependen de la tarea que se esté realizando, como clasificación, regresión, generación, etc.

Realizar modificaciones después del ajuste

Después de que el proceso de ajuste se haya completado, el rendimiento del modelo debe evaluarse con los datos de prueba. Este paso ayuda a garantizar que el modelo generalice de la forma adecuada los datos nuevos y el rendimiento sea bueno en la tarea específica. Entre las mediciones utilizadas para la evaluación se incluyen la exactitud, la precisión y la memoria.

Calibración

Ajuste los resultados del modelo para reflejar mejor las verdaderas probabilidades. A veces, es posible que un modelo ajustado tenga demasiada confianza en sus predicciones, o no tenga la suficiente.

Bucle de retroalimentación

Configure un sistema en el que los usuarios finales puedan proporcionar comentarios sobre los resultados del modelo. Estos comentarios pueden utilizarse en rondas futuras de ajuste, lo que lleva a una mejora continua.

Implementación del modelo

Después de que el modelo ajustado se haya evaluado, se puede implementar en entornos de producción. El proceso de implementación puede incluir la integración del modelo en un sistema más grande, la configuración de la infraestructura necesaria y la supervisión del rendimiento del modelo en escenarios reales.

Tamaño del modelo

Tenga en cuenta la destilación del modelo o el podado después del ajuste a fin de reducir el tamaño del modelo sin dañar considerablemente el rendimiento. Es posible que esto cambie en función del lugar donde se implementa el modelo, por ejemplo, dispositivos perimetrales, servidores web, etc.

Resumen

A pesar de que el concepto de ajuste puede parecer claro, en la práctica, implica una serie de pasos y decisiones que hay que tener en cuenta cuidadosamente. Cada etapa, desde la preparación de los datos hasta la implementación, puede afectar de manera significativa a la eficacia y eficiencia del modelo en el dominio o tarea de destino.

Estimación de tiempo

Temas

¿Necesita ayuda?