Skip to main content

Obtenga información sobre los aspectos básicos de los modelos de lenguaje grande

Objetivos de aprendizaje

Después de completar esta unidad, podrá:

  • Describir un modelo de lenguaje grande (large language model, LLM).
  • Explicar cómo se entrenan los LLM.
  • Lograr comprender mejor cómo ajustar los LLM.

¿Qué es un modelo de lenguaje grande?

Imagine que tiene un asistente digital superinteligente que leyó grandes cantidades de textos, incluidos textos de libros, artículos, sitios web y demás contenido escrito hasta el año 2021. Sin embargo, no “contiene” libros completos como una biblioteca. En su lugar, procesa patrones de los datos textuales con los que se entrenó.

Puede hacerle a este asistente digital cualquier pregunta, y este intentará darle una respuesta conforme a lo que “leyó”. No “comprende” como lo hacen las personas, en realidad, pero es muy bueno para recordar y conectar información.

Ese asistente digital es como un modelo de lenguaje grande (LLM). Los LLM son modelos informáticos avanzados, diseñados para comprender y generar texto como un humano. Se entrenan con grandes cantidades de datos de textos para aprender patrones, estructuras del idioma, y relaciones entre palabras y oraciones.

¿Cómo funcionan los modelos de lenguaje grande?

En su esencia, los LLM como GPT-3 predicen un token (por ejemplo, una palabra o un carácter) a la vez, lo que crea una secuencia de inicio a fin. Dada una solicitud, intentan predecir el próximo token, y el próximo, y el próximo, y así sucesivamente.

Las predicciones que realizan los LLM hacen referencia a su capacidad de generar o completar texto conforme a los patrones que vieron durante el entrenamiento; para ello, realizan impresionantes proezas de reconocimiento de patrones en grandes cantidades de textos. Pueden generar contenido coherente y relevante en contexto en una gran variedad de temas.

“Grande” en los modelos de lenguaje grande hace referencia al tamaño y la complejidad de estos modelos. Usan recursos informáticos importantes, como servidores potentes con varios procesadores y mucha memoria. Estos recursos permiten que el modelo aborde y procese grandes cantidades de datos, lo cual mejora su capacidad para comprender y generar texto de alta calidad.

Los LLM varían por tamaño, pero en general contienen miles de millones de parámetros. Los parámetros son las variables que el modelo aprende durante el proceso de entrenamiento, que representan el conocimiento y la comprensión que obtiene a partir de los datos. Cuantos más parámetros haya, mayor será la capacidad del modelo para aprender y capturar patrones intricados en los datos.

Para que se dé una idea de cuántos parámetros usan los LLM, las versiones anteriores de modelos de GPT (transformador generativo preentrenado), como GPT-3, tienen aproximadamente 175.000 millones de parámetros. Estos se consideran modelos bastante grandes y tienen capacidades significativamente avanzadas de procesamiento de lenguaje. Se dice que GPT-4 tiene más de 1 billón de parámetros.

Estos números, sin dudas, son impresionantes, pero el mero tamaño de estos modelos también trae aparejados desafíos, como los recursos informáticos necesarios para entrenarlos, el impacto ambiental, los sesgos potenciales y mucho más.

Los modelos de lenguaje grande son asistentes virtuales con muchísimo conocimiento que pueden ayudar en una gran variedad de tareas relacionadas con el lenguaje. Pueden asistir en la escritura, brindar información, ofrecer sugerencias creativas e incluso entablar una plática. El objetivo del creador del modelo es asistir e interactuar con la tecnología de forma más natural y similar a los humanos. Sin embargo, los usuarios deben conocer sus limitaciones y usarlos como una herramienta, no como una fuente de la verdad absoluta.

¿Qué es el entrenamiento de LLM?

Entrenar un LLM es como enseñar a un robot cómo entender y usar el lenguaje humano. ¿Cómo se entrena un robot para entender y usar el lenguaje humano? Esta es una forma en la que puede hacerlo.

  1. Reunir libros y artículos. Imagine recopilar una enorme pila de libros, artículos y otros textos para enseñar al robot.
  2. Practicar la lectura. Haga que el robot lea una oración y, luego, pídale que adivine la palabra siguiente. Al principio, puede adivinar de forma aleatoria, dado que aún está aprendiendo.
  3. Revisar las respuestas. Una vez que el robot realice una estimación, debe mostrarle la palabra correcta del texto real. Si lo que adivinó el robot es incorrecto, coménteselo. Diga “¡Ups! Eso no es correcto”.
  4. Repetir. Continúe haciendo esto de “adivinar y comprobar” una y otra vez, con toneladas de oraciones. El robot comienza a mejorar en las adivinanzas de la palabra siguiente a medida que avanza en la lectura.
  5. Probar. Ocasionalmente, debe probar el robot con oraciones que no vio antes para saber si realmente está aprendiendo o solo memorizando.
  6. Especializar. Si desea que el robot sea especialmente bueno en, por ejemplo, lenguaje médico, puede darle lecciones adicionales con libros médicos.
  7. Graduar. Una vez que el robot se vuelve muy bueno en comprender y generar textos, diga “¡Excelente trabajo!” y permítale ayudar a las personas con varias tareas del lenguaje.

¡Y eso es todo! El entrenamiento es una combinación de práctica de lectura, pruebas y lecciones especiales hasta que el robot se convierte en un experto del lenguaje. La misma idea básica se aplica a los LLM.

¿Cómo funciona el ajuste?

El ajuste es el proceso de entrenar en más profundidad un modelo preentrenado sobre un nuevo conjunto de datos más pequeño y más específico que el conjunto de datos de entrenamiento original.

Imagine que enseñó a un robot a preparar platos de todo el mundo con el libro de cocina más grande del mundo. Ese es el entrenamiento básico. Supongamos ahora que desea que el robot se especialice en cocina italiana. Le dará un libro de cocina italiana más pequeño y detallado, y hará que practique esas recetas. Esta práctica especializada es como el ajuste.

El ajuste consiste en tomar un robot (o modelo) que conoce un poco sobre muchos temas y entrenarlo más en un tema específico hasta que se vuelva un experto en esa área.

¿Por qué es importante el ajuste?

  • Aprendizaje por transferencia: los modelos preentrenados ya aprendieron muchas características genéricas de sus extensos conjuntos de datos de entrenamiento. El ajuste permite que estos modelos transfieran ese conocimiento general a tareas específicas con conjuntos de datos relativamente pequeños.
  • Eficiencia: son necesarios muchos datos y recursos informáticos para entrenar un modelo de aprendizaje profundo desde cero. Con el ajuste, comienza desde un modelo que ya tiene muchos conocimientos, por lo que puede lograr un buen desempeño con menos datos y en menos tiempo.
  • Mejor desempeño: los modelos ajustados en tareas específicas suelen tener mejor desempeño que los modelos entrenados desde cero en estas tareas, dado que se benefician del conocimiento más amplio obtenido durante el entrenamiento inicial.

¿Qué contiene una versión?

En cada versión, la arquitectura subyacente puede permanecer similar, pero la escala, los datos de entrenamiento o ciertos parámetros pueden cambiar. Cada versión nueva tiene como objetivo mejorar las debilidades de la anterior, ocuparse de un rango más amplio de tareas o reducir sesgos y errores. Esta es una explicación simplificada.

Versión 1 (por ejemplo, GPT-1 de OpenAI o BERT-base de Google)

  • El inicio: el primer lanzamiento del modelo. Funciona bien, pero es como el primer borrador de una novela, puede mejorar.
  • Tamaño y datos: usa una determinada cantidad de datos y tiene un número específico de parámetros (como las “neuronas” del modelo).

Versión 2 (GPT-2 de OpenAI)

  • Mejoras: sobre la base de los aprendizajes de la primera versión, se realizan ajustes. Es como editar la novela según los comentarios.
  • Tamaño y datos: suele ser más grande y tener más parámetros. Puede entrenarse con conjuntos de datos más grandes o más variados.

Versión 3 (GPT-3 de OpenAI)

  • Aún mejor: incorpora más comentarios, investigación y avances tecnológicos.
  • Tamaño y datos: mucho más grande. Por ejemplo, GPT-3 tiene 175.000 millones de parámetros, lo que lo hace mucho más capaz, pero también requiere más recursos.

Versiones ajustadas:

  • una vez lanzadas las versiones principales, a veces hay versiones especializadas ajustadas para tareas específicas. Es como tomar una novela general y adaptarla a una versión de misterio, romance o ciencia ficción.

Otras iteraciones:

  • Los modelos como BERT tienen variaciones (RoBERTa, DistilBERT, etc.) que son básicamente “versiones” diferentes con ajustes en la arquitectura o estrategia de entrenamiento.

Las versiones de LLM son como ediciones consecutivas de una serie de libros, en la que cada lanzamiento nuevo intenta ser más refinado, amplio y cautivante.

A continuación, veamos cómo los LLM pueden usarse con Salesforce.

Recursos

Comparta sus comentarios de Trailhead en la Ayuda de Salesforce.

Nos encantaría saber más sobre su experiencia con Trailhead. Ahora puede acceder al nuevo formulario de comentarios en cualquier momento en el sitio de Ayuda de Salesforce.

Más información Continuar a Compartir comentarios