Utilizar el ajuste para mejorar el rendimiento

Objetivos de aprendizaje

Después de completar esta unidad, podrá:

Enumerar los beneficios del ajuste.
Explicar los retos del ajuste.
Describir cuándo utilizar el ajuste.

¿Por qué se ajusta?

A veces, los modelos más pequeños y ajustados pueden conseguir mejores resultados en tareas específicas para las que se entrenan que los modelos más grandes y más caros. También pueden mejorar el rendimiento del modelo original. Estos son algunos beneficios del uso del ajuste.

Conocimientos específicos de la tarea

Uso de vocabulario específico

Los modelos de lenguaje grandes disponen de un amplio vocabulario gracias a la formación previa. Sin embargo, las tareas especializadas suelen tener una jerga y términos exclusivos. El ajuste introduce y refuerza dicho vocabulario, lo que garantiza que el modelo lo comprenda y utilice de forma correcta.

Piense en un gran modelo de lenguaje utilizado para el diagnóstico de enfermedades basándose en transcripciones médicas. Este gran modelo de lenguaje, ajustado con datos médicos, ofrecerá un rendimiento mucho mejor en comparación con el modelo base, que carece de los conocimientos médicos necesarios. Por ello, el ajuste resulta ser indispensable a la hora de lidiar con campos especializados, datos confidenciales o información exclusiva que no se ha representado correctamente en los datos de entrenamiento generales.

Utilizar el entendimiento contextual

Es posible que a los modelos generales les falte profundidad en temas específicos. Al realizar un ajuste en el contenido específico de una tarea, el modelo consigue un entendimiento mucho más profundo y con más matices del tema, lo que permite obtener respuestas más precisas y esclarecedoras.

Rentabilidad

Promover el ahorro informático

Entrenar un modelo de la escala de GPT-4 desde cero requiere recursos informáticos importantes y tiempo. Utilizando un modelo entrenado previamente y ajustándolo, estará reutilizando de manera eficaz la mayoría de recursos informáticos utilizados durante la fase de entrenamiento previo, lo que ahorra tiempo y recursos.

Aumentar la eficacia de los datos

El ajuste suele requerir un conjunto de datos más pequeño que el entrenamiento desde cero. Esto es fundamental, especialmente en tareas exclusivas en las que la recopilación de grandes cantidades de datos resulta desafiante o cara.

Personalización y flexibilidad

Personalización para usos específicos

Es posible que cada negocio o uso tenga requisitos exclusivos. El ajuste permite la personalización, lo que garantiza que el modelo se alinee con los casos de uso específicos, como la generación de contenido de marketing personalizado o la comprensión del contenido generado por el usuario en su plataforma.

Promover la confidencialidad de los datos y el cumplimiento

Es posible que las empresas que manejan datos confidenciales o tienen que cumplir normativas muy estrictas tengan que ajustar un modelo a fin de garantizar que se respeten los requisitos de privacidad, se ajusta a las directrices del contenido y se generan respuestas apropiadas que cumplan con las normativas del sector.

Adaptarse a un tono y estilo

Si una empresa quiere que un modelo se comunique en un tono específico (ya sea formal, bromista o empático), el ajuste de los datos con ese tono puede ayudarle a conseguirlo.

Mejorar la experiencia de usuario

Un modelo ajustado puede ofrecer una experiencia de usuario mejor al generar respuestas más precisas, pertinentes y conscientes del contexto, lo que tiene como resultado un aumento en la satisfacción del cliente, en aplicaciones como:

Bots de chats
Asistentes virtuales
Sistemas de atención al cliente

Consideraciones éticas y de seguridad

Mitigar los sesgos

Cuando se encuentran sesgos o problemas en el comportamiento general de un modelo o en los resultados, el ajuste de los conjuntos de datos confeccionados puede ayudar a reducir dichos sesgos.

Filtrar resultados no deseados

Para las aplicaciones en las que ciertos resultados no son los deseados, por ejemplo, aplicaciones para niños, el ajuste puede ayudar a refinar los resultados del modelo para que se mantenga dentro de los límites.

Excluir datos confidenciales

Tenga cuidado de no introducir datos confidenciales a la hora de crear conjuntos de datos. Aunque es posible que se obtengan mejores resultados, se exponen los datos y se corre el riesgo de que se utilicen de una forma que no es adecuada.

Mejora continua

Iterar bucles de retroalimentación

Después de la implantación, las interacciones de los usuarios con el modelo pueden recopilarse (a la vez que se respeta las normas de privacidad) y utilizarse como retroalimentación. El ajuste periódico que se basa en esta retroalimentación garantiza que el modelo permanezca alineado con las necesidades del usuario y siga mejorando continuamente.

Ventaja competitiva

Permitir la capacidad de diferenciación

En un mercado en el que es posible que varias entidades utilicen los mismos modelos base, el ajuste ofrece una manera de destacar, mediante la creación de un modelo que puede cambiar y que es exclusivo y posiblemente más apropiado para una clientela o tarea específicas.

¿Cuándo utilizar el ajuste?

La decisión de ajustar un gran modelo de lenguaje depende de varios factores, entre los que se incluyen el caso de uso específico, los costes asociados y el nivel deseado de especificidad en el dominio.

Para las tareas generales, como responder a preguntas o resumir documentos, los modelos entrenados previamente, como GPT-3.5, que están disponibles a través de las API, producen resultados satisfactorios. Además, el uso de estas API es una solución rentable.

Sin embargo, para las tareas que implican el procesamiento de muchos datos o requieren un nivel específico de experiencia, es posible que el ajuste sea necesario. El ajuste hace que el modelo comprenda y genere texto en consonancia con el conocimiento experto de un campo específico, mejorando de este modo la calidad de los resultados considerablemente.

Desafíos y consideraciones

Si el ajuste es tan increíble, ¿por qué motivo no se ajustan todos los modelos de lenguaje grandes para cada especialidad? La respuesta es que se trata de un proceso complejo y hay que ajustar muchos criterios. Estas son algunas de las desventajas que deberían tenerse en cuenta.

Sobreajuste

Una de las principales preocupaciones del ajuste se produce cuando un modelo se entrena centrándose demasiado en un pequeño conjunto de datos. Es posible que desempeñe una tarea de forma excepcional en relación a ese conjunto de datos, pero que no lo haga de la misma forma para datos desconocidos.

Olvido catastrófico

Un ajuste incorrecto puede provocar que el modelo "olvide" algunos de los conocimientos previos generales, lo que lo hace menos eficaz fuera de un dominio especializado.

Sesgos en conjuntos de datos

Si el conjunto de datos ajustado contiene sesgos, estos pueden transmitirse al modelo. Esto provocaría que el modelo aprendiese las mismas imprecisiones y tuviese los mismos sesgos. Los sesgos pueden provenir de diferentes fuentes, como sesgo de selección, de muestreo, de etiquetado o histórico.

Sesgo de selección: los datos seleccionados para el ajuste no representan la total diversidad del espacio problemático.
Sesgo de muestreo: los datos se recopilan de manera que es más probable que se incluyan algunos miembros de la población objetivo que otros.
Sesgo de etiquetado: Las anotaciones o etiquetas proporcionadas en el conjunto de datos ajustado están influenciadas por opiniones o estereotipos subjetivos.
Sesgo histórico: los datos reflejan injusticias históricas o sociales que son intrínsicamente injustas o problemáticas.

Selección de hiperparámetros

Utilizar una configuración incorrecta de hiperparámetros al ajustar puede dificultar el rendimiento del modelo o incluso hacer que no pueda entrenarse.

Resumen

El ajuste no se trata solo de hacer que un modelo "funcione" para una tarea específica, sino de optimizar el rendimiento, garantizar la relevancia, conseguir rentabilidad y confeccionar resultados tanto por razones éticas como funcionales. Estos son los factores principales que hay que tener en cuenta a la hora de llevar a cabo un ajuste.

¿Son necesarios conocimientos especializados para llevar a cabo la tarea?
¿Dispone del conjunto de datos especializado para realizar el ajuste?
¿Cuenta con recursos, tiempo y potencia informática?

Recursos

Documentación de OpenAI: Ajuste

Estimación de tiempo

Temas

¿Necesita ayuda?