Aprender los aspectos básicos sobre los modelos de lenguaje grandes

Objetivos de aprendizaje

Después de completar esta unidad, podrá:

Describir un gran modelo de lenguaje (LLM).
Explicar cómo se entrenan los modelos de lenguaje grandes.
Comprender mejor el ajuste de los LLM.

¿Qué es un gran modelo de lenguaje?

Imagine que tiene un asistente digital superinteligente que ha leído una gran cantidad de textos, entre los que se incluyen textos de libros, artículos, sitios web y otros tipos de contenido escrito hasta el año 2021. Sin embargo, no "contiene" libros completos al igual que una biblioteca. En su lugar, procesa patrones de los datos textuales con los que está entrenado.

Puede hacerle cualquier pregunta al asistente digital, y este intentará darle una respuesta según lo que ha "leído". No "comprende" realmente de la manera en la que lo hacen las personas, pero es muy bueno recordando y conectando información.

Este asistente digital es como un gran modelo de lenguaje (LLM). Los LLM son modelos informáticos avanzados diseñados para comprender y generar textos similares al de los seres humanos. Se entrenan con una gran cantidad de datos de texto para que aprenda patrones, estructuras de lenguaje y relaciones entre palabras y oraciones.

¿Cómo funcionan los grandes modelos de lenguaje grandes?

Fundamentalmente, los LLM como GPT-3 predicen un token (por ejemplo, una palabra o un carácter) cada vez, y crea una secuencia desde el principio hasta el final. Si se les hace una petición, intentan predecir el siguiente token, y el siguiente, y el siguiente, etc.

Las predicciones realizadas por los LLM hacen referencia a su capacidad de generar o completar texto basado en patrones que han visto durante el entrenamiento, realizando hitos increíbles de reconocimiento de patrones con una gran cantidad de texto. Pueden generar contenido coherente y contextualmente relevante sobre una amplia variedad de temas.

Estos modelos se llaman modelos de lenguaje grandes porque son grandes en tamaño y complejos. Utilizan recursos informáticos significantes, como servidores potentes con varios procesadores y mucha memoria. Estos recursos permiten que el modelo gestione y procese grandes cantidades de datos, lo cual mejora su capacidad de comprender y generar texto de gran calidad.

Los LLM varían en tamaño, pero normalmente contienen miles de millones de parámetros. Los parámetros son las variables que aprende el modelo durante el proceso de entrenamiento, representando el conocimiento y la comprensión que obtiene de los datos. Cuando más parámetros, mayor capacidad tendrá el modelo de aprender y capturar patrones complejos en los datos.

Para que se haga una idea de los todos los parámetros que utilizan los LLM, las versiones anteriores de los modelos de GPT (transformador generativo preentrenado), como GPT-3, tienen unos 175 mil millones de parámetros. Estos modelos se consideran bastante grandes y han impulsado en gran medida las capacidades de procesamiento del lenguaje. Se dice que GPT-4 tiene más de un billón de parámetros.

Estos números son impresionantes, pero el gran tamaño de estos modelos también está acompañado de desafíos, como los recursos informáticos necesarios para entrenarlos, el impacto medioambiental, los posibles sesgos, y más.

Los modelos de lenguaje grandes son asistentes virtuales muy informados que pueden ayudar con una gran variedad de tareas relacionadas con el lenguaje. Puede ayudar a escribir, proporcionar información, ofrecer sugerencias creativas e incluso implicarse en conversaciones. El objetivo del creador del modelo es asistir y realizar interacciones con la tecnología de una manera natural, similar a como lo hacen los seres humanos. Sin embargo, los usuarios deberían ser conscientes de sus limitaciones y utilizarlos como una herramienta en lugar de como una fuente de verdad infalible.

¿Qué es el entrenamiento de LLM?

Entrenar a un LLM es como enseñarle a un robot a comprender y a utilizar el lenguaje de los seres humanos. ¿Cómo se entrena a un robot para que comprenda y utilice el lenguaje de los seres humanos? Esta es una manera de hacerlo.

Se recopilan libros y artículos. Imagine recopilar una enorme cantidad de libros, artículos y otros documentos para instruir al robot.
Se practica la lectura. Usted hace que el robot lea una oración y, a continuación, le pide que adivine la siguiente palabra. Al principio, es posible que las suposiciones se hagan al azar, ya que todavía está aprendiendo.
Se comprueban las respuestas. Después de que el robot haga una sugerencia, muéstrele la palabra correcta del texto real. Si el robot no la ha adivinado, hágale algún comentario, por ejemplo: "Vaya. Eso no es correcto".
Se repite. Continúe haciendo este proceso una y otra vez, con muchas oraciones. Cuanto más lea el robot, mejores serán las suposiciones.
Se prueba. A veces, se pone a prueba el robot con oraciones que no ha visto nunca para ver si realmente está aprendiendo o si solo memorizando.
Se especializa. Si quiere que el robot sea especialmente bueno en, por ejemplo, lenguaje médico, tendrá que instruirlo de forma adicional con libros de medicina.
Se alcanza el nivel requerido. Una vez que el robot sea realmente bueno comprendiendo y generando texto, dígale: "Buen trabajo". A continuación, permita que ayude a las personas con varias tareas de lenguaje.

Y eso es todo. El entrenamiento es como una mezcla de práctica de lectura, pruebas y lecciones especiales hasta que el robot se convierta en un experto del lenguaje. Lo mismo ocurre con los LLM.

¿Cómo funciona el ajuste?

El ajuste es el proceso de perfeccionar un modelo ya entrenado con un nuevo conjunto de datos que es más pequeño y más específico que el conjunto de datos de entrenamiento original.

Imagine que le ha enseñado a un robot a cocinar platos de todo el mundo utilizando el libro de recetas de cocina más extenso del mundo. Ese sería el entrenamiento básico. Ahora, supongamos que quiere que el robot se especialice en platos italianos. Entonces le proporcionaría un libro de recetas italianas más pequeño y haría que practicara esas recetas. El ajuste es como esta práctica especializada.

El ajuste es como coger a un robot (o modelo) que sabe un poco sobre muchas cosas y, después, entrenarlo más en cuanto a un tema hasta que sea experto en esa materia.

¿Por qué es importante el ajuste?

Transfiere aprendizaje: Los modelos preentrenados ya han aprendido muchas funciones generales de los grandes conjuntos de datos de entrenamiento. El ajuste permite que estos modelos transfieran ese conocimiento general a tareas específicas con conjuntos de datos relativamente pequeños.
Eficacia: Entrenar a un modelo de aprendizaje profundo desde cero requiere muchos datos y recursos informáticos. Con el ajuste, se comienza con un modelo que ya sabe muchas cosas, por lo que puede conseguir un gran rendimiento utilizando menos datos y tiempo.
Mejor rendimiento: Normalmente, los modelos ajustados para tareas específicas superan a los modelos entrenados desde cero en esas tareas, ya que se benefician delos conocimientos más amplios capturados durante el entrenamiento inicial.

¿Qué incluye una versión?

Para cada versión, es posible que la arquitectura subyacente sea similar, pero la escala, los datos de entrenamiento y algunos parámetros pueden cambiar. Cada nueva versión tiene como objetivo mejorar en cuanto a las debilidades de la anterior, gestionar una variedad más amplia de tareas o reducir los sesgos y errores.A continuación se proporciona una explicación simplificada.

Versión 1 (por ejemplo, GPT-1 de OpenAI o método BERT de Google)

El comienzo: La primera versión del modelo. Funciona bien, pero es como el primer borrador de una novela, se puede mejorar.

Tamaño y datos: Utiliza una cierta cantidad de datos y tiene un número particular de parámetros (como las "neuronas" del modelo).

Versión 2 (GPT-2 de OpenAI)

Mejoras: Se realizan ajustes basados en los aprendizajes de la primera versión. Es como modificar la novela basándose en comentarios.

Tamaño y datos: Normalmente es más grande y contiene más parámetros. Es posible que se entrene con conjuntos de datos más diversos o amplios.

Versión 3 (GPT-3 de OpenAI)

Mejoras más potentes: Incorpora más comentarios, investigación y avances tecnológicos.

Tamaño y datos: Más grande. Por ejemplo, GPT-3 tiene 175 mil millones de parámetros, lo que hace que sea más competente pero también hace que necesite más recursos.

Versiones ajustadas:

Después de que se lancen las versiones principales, a veces hay versiones especializadas ajustadas para tareas específicas. Es como adaptar una novela para que sea de misterio, romántica o de ciencia ficción.

Otras iteraciones:

Los modelos como BERT tienen variaciones (RoBERTa, DistilBERT, etc.) que son "versiones" diferentes con algunas modificaciones en la estrategia o arquitectura de entrenamiento.

Las versiones de LLM son como ediciones consecutivas de una serie de libros, en la que cada nueva versión tiene como objetivo ser una lectura más refinada, amplia y cautivadora.

A continuación, veamos cómo pueden utilizarse los LLM con Salesforce.

¿Necesita ayuda?

Descubrir más