Découvrez les concepts de base concernant les grands modèles de langage

Objectifs de formation

Une fois cette unité terminée, vous pourrez :

Décrire ce qu’est un grand modèle de langage (LLM)
Expliquer comment les LLM sont entraînés
Mieux comprendre comment les LLM sont ajustés

Avant de commencer

Les grands modèles de langage s’appuient sur le traitement du langage naturel (NLP) et l’apprentissage machine pour comprendre et générer du texte qui semble rédigé par des humains. Si vous n’avez pas encore remporté le badge Concepts de base du traitement en langage naturel, nous vous recommandons de le faire avant de commencer celui-ci.

Qu’est-ce qu’un grand modèle de langage ?

Imaginez que vous disposiez d’un assistant numérique ultra-intelligent qui a lu de grandes quantités de texte, y compris des textes extraits de livres, d’articles, de sites Web et d’autres contenus écrits jusqu’en 2021. Cependant, votre assistant « n’inclut » pas de livres entiers comme on en trouve dans une bibliothèque. Il traite plutôt des modèles à partir des données textuelles avec lesquelles il est entraîné.

Vous pouvez poser n’importe quelle question à cet assistant numérique, et il essaiera de vous donner une réponse en fonction de ce qu’il a « lu ». Il ne « comprend » pas les choses de la même façon que nous humains, mais il est très efficace pour mémoriser des informations et trouver des liens entre elles.

La façon dont fonctionne cet assistant numérique est un peu la même que celle d’un grand modèle de langage (LLM). Les LLM sont des modèles informatiques avancés conçus pour comprendre et générer des textes semblables à ceux rédigés par des humains. Ils sont entraînés avec de grandes quantités de données textuelles pour apprendre des modèles, des structures linguistiques et les relations entre les mots et les phrases.

Comment fonctionnent les grands modèles de langage ?

À la base, les LLM comme GPT-3 prédisent un à un des jetons (par exemple, un mot ou un caractère), qui construisent une séquence entière. Lorsqu’ils reçoivent une requête, ils essaient de prédire le prochain jeton, puis le suivant, et le suivant, et ainsi de suite.

Ces prédictions représentent la capacité des LLM à générer ou à compléter un texte à partir des modèles qu’ils ont repérés au cours de leur entraînement, réalisant des exploits impressionnants de reconnaissance de modèles sur de grandes quantités de texte. Ils peuvent générer un contenu cohérent, contextuel et pertinent sur un large éventail de sujets.

L’adjectif « grand » dans « grands modèles de langage » fait référence à la taille et à la complexité de ces modèles. Ils utilisent des ressources informatiques importantes, comme des serveurs puissants dotés de plusieurs processeurs et d’une très grande mémoire. Ces ressources permettent aux LLM de gérer et de traiter d’énormes quantités de données, ce qui améliore leur capacité à comprendre et à générer des textes de qualité.

Les LLM peuvent avoir différentes tailles, mais ils contiennent généralement des milliards de paramètres. Les paramètres sont les facteurs que le modèle apprend au cours de son processus de formation, construisant ainsi sa compréhension du langage. Plus il y a de paramètres, plus le modèle a la capacité d’apprendre et d’identifier des modèles complexes dans les données, améliorant ses facultés à produire du texte qui semble rédigé par des humains.

Pour vous donner une idée du nombre de paramètres utilisés par les LLM, les versions antérieures des modèles GPT (Generative Pre-trained Transformer, ou transformeur génératif préentraîné), comme GPT-3, comportent environ 175 milliards de paramètres. Ces modèles sont considérés comme étant relativement volumineux et ont considérablement amélioré les capacités de traitement du langage. GPT-4 inclurait plus de 1 000 milliards de paramètres.

Certes, ces chiffres sont impressionnants, mais la taille de ces modèles pose un certain nombre de défis, comme la disponibilité des ressources informatiques nécessaires pour les entraîner, l’impact sur l’environnement, la présence de biais, etc.

Les grands modèles de langage sont en quelque sorte des assistants virtuels incroyablement compétents, capables de vous aider à réaliser un large éventail de tâches en lien avec le langage. Ils peuvent vous aider à rédiger du contenu, vous fournir des informations, proposer des suggestions créatives et même mener une conversation. L’objectif du créateur du modèle est d’assister ses utilisateurs et de rendre les interactions avec la technologie plus naturelles et plus humaines. Les utilisateurs doivent cependant être conscients de leurs limites et les utiliser comme un outil, et non comme une source d’informations infaillible.

Comment se passe l’entraînement des LLM ?

Entraîner un LLM, c’est comme apprendre à un robot comment comprendre et utiliser le langage humain. Mais alors, comment fait-on pour entraîner un robot ? Voici un exemple de méthode pour y parvenir.

Rassemblez des livres et des articles. Imaginez-vous en train de rassembler une énorme pile de livres, d’articles et d’autres écrits pour entraîner le robot.
Entraînez-le à lire. Faites lire une phrase au robot, puis demandez-lui de deviner le mot suivant. Au début, il fera probablement des suggestions au hasard dans la mesure où il est encore en train d’apprendre.
Vérifiez ses réponses. Une fois que le robot a fait une suggestion, montrez-lui le mot véritablement employé dans le texte. Si la suggestion du robot est fausse, faites-lui un retour en lui disant, par exemple, « Oups ! Réponse incorrecte. »
Répétez ce processus. Répétez ces étapes encore et encore, avec des milliers de phrases. Plus le robot va lire, plus il lui sera facile de deviner le mot suivant.
testez. De temps en temps, testez le robot en lui proposant des phrases qu’il n’a jamais lues auparavant pour voir s’il apprend vraiment ou s’il mémorise simplement ce que vous lui montrez.
Faites de lui un expert. Si vous souhaitez que le robot connaisse particulièrement bien le jargon médical, par exemple, vous pouvez l’entraîner davantage en utilisant des ouvrages de médecine.
Félicitez-le. Une fois que le robot devient vraiment doué pour comprendre et générer du texte, félicitez-le en lui disant « Excellent travail ! », et autorisez-le à aider des gens dans diverses tâches linguistiques.

C’est tout ! L’entraînement comprend à la fois des exercices de lecture, des quiz et des leçons spécialisées, qui sont répétés jusqu’à ce que le robot devienne un expert du langage. Le même processus s’applique aux LLM.

Qu’est-ce que l’ajustement ?

L’ajustement consiste à poursuivre l’entraînement d’un modèle préentraîné avec un nouveau jeu de données plus petit et plus spécifique que le jeu de données de l’entraînement initial.

Imaginez que vous ayez appris à un robot à cuisiner des plats du monde entier à l’aide du plus grand livre de cuisine au monde. C’est ce qu’on appelle l’entraînement de base. Supposons maintenant que vous souhaitiez que le robot se spécialise uniquement dans la préparation de plats italiens. Vous lui donneriez alors un livre de cuisine italien plus petit et détaillé et lui demanderiez de s’entraîner sur ces recettes. Cet entraînement spécialisé s’apparente à un ajustement.

L’ajustement, c’est comme prendre un robot (ou un modèle) qui a des notions sur un grand nombre de sujets, puis poursuivre son entraînement sur un sujet spécifique jusqu’à ce qu’il devienne un expert dans ce domaine.

À quoi sert l’ajustement ?

Apprentissage par transfert : Les modèles préentraînés ont déjà appris de nombreuses fonctionnalités génériques à partir de leurs vastes jeux de données d’entraînement. Un ajustement permet à ces modèles d’appliquer ces connaissances générales à des tâches plus spécifiques réalisées avec des jeux de données relativement petits.
Efficacité : Entraîner un modèle d’apprentissage profond de A à Z nécessite beaucoup de données et de ressources informatiques. Avec l’ajustement, vous démarrez avec un modèle qui dispose déjà d’un grand nombre de connaissances. Vous pouvez donc obtenir de bonnes performances avec moins de données, en moins de temps.
Meilleures performances : Les modèles ajustés pour des tâches spécifiques obtiennent souvent de meilleurs résultats que les modèles entraînés de A à Z pour ces tâches, car ils bénéficient de connaissances plus importantes acquises lors de leur entraînement initial.

Contenu d’une version

Pour chaque version, l’architecture sous-jacente peut rester la même, mais l’échelle, les données d’entraînement ou certains paramètres peuvent être amenés à évoluer. Chaque nouvelle version a pour objectif de combler les lacunes de la précédente, de gérer un plus large éventail de tâches ou de réduire le nombre de biais et d’erreurs.

Voici un exemple pour l’illustrer de façon simplifiée.

Version 1 (par exemple : GPT-1 d’OpenAI ou BERT-base de Google)

Point de départ : Première version du modèle. Celle-ci fonctionne bien, mais c’est un peu comme la première version d’un roman ; des améliorations peuvent y être apportées.

Taille et données : Elle utilise une certaine quantité de données et comporte un certain nombre de paramètres (ce sont en quelque sorte les « neurones » du modèle).

Version 2 (GPT-2 d’OpenAI)

Améliorations : Des ajustements sont apportés en tenant compte des enseignements tirés de la première version. C’est comme éditer votre roman à partir des commentaires que vous avez reçus.

Taille et données : Cette version est souvent plus volumineuse et comporte plus de paramètres. Elle pourrait être entraînée avec des jeux de données plus diversifiés ou plus volumineux.

Version 3 (GPT-3 d’OpenAI)

Encore mieux : Elle tient davantage compte des feedbacks, de la recherche et des avancées technologiques.

Taille et données : Cette version est beaucoup plus volumineuse. Par exemple, GPT-3 comporte 175 milliards de paramètres, ce qui le rend beaucoup plus performant mais nécessite également plus de ressources.

Versions ajustées :

Après le lancement des versions génériques, des versions spécialisées, ajustées pour des tâches spécifiques, sont parfois publiées. C’est comme prendre un roman de littérature contemporaine et l’adapter en roman de science-fiction, en policier ou sentimental.

Autres itérations :

Certains modèles (comme BERT) ont des variantes (RoBERTa, DistilBERT, etc.) qui sont des « versions » différentes comportant des ajustements au niveau de la stratégie ou de l’architecture d’entraînement.

Les versions LLM sont comme différentes éditions d’une saga littéraire dont chaque nouvelle version vise à offrir une lecture plus enrichissante, plus longue et plus captivante.

Maintenant, regardons comment les LLM sont utilisés par Salesforce.

Durée estimée

Thèmes

Besoin d'aide ?

Ressources Salesforce Platform