Présentation de l’ajustement

Objectifs de formation

Une fois cette unité terminée, vous pourrez :

Définir l’ajustement
Expliquer le fonctionnement de l’ajustement

Avant de commencer

Ce badge fait référence à des concepts et des idées décrits dans les badges Concepts de base du traitement en langage naturel, Grands modèles de langage et Principes fondamentaux des invites. Nous vous recommandons de commencer par obtenir ces badges.

Petit rappel

Les grands modèles de langage (LLM), comme la série de modèles GPT d’OpenAI, sont des réseaux neuronaux massifs entraînés à comprendre des textes et à générer d’autres textes donnant l’impression d’avoir été rédigés par un humain. Ils sont entraînés à partir de grands volumes de données et disposent donc d’une large base de connaissances à caractère général.

Qu’est-ce que l’ajustement ?

L’ajustement est le processus qui consiste à prendre un vaste modèle de langage général et préentraîné, et à l’entraîner (ou à l’« ajuster ») avec un jeu de données spécifique plus petit. Pour les LLM, cela signifie transformer un modèle de base à usage général en un modèle spécialisé pour un cas d’utilisation particulier. Cela permet de spécialiser davantage le modèle pour une tâche particulière. L’ajustement est ajouté à un modèle préentraîné et modifie sa pondération pour améliorer les performances.

Prenons un exemple. Supposons que vous disposez d’un robot connecté capable de cuisiner à peu près n’importe quel plat. Bien que l’appareil puisse cuisiner la version de base de n’importe quel plat, vous souhaitez qu’il vous concocte ce délicieux plat italien que vous avez dégusté lors d’un voyage à Venise. Pour cela, l’appareil doit maîtriser les particularités de la cuisine italienne. Pour y parvenir, vous devez le familiariser à davantage de recettes et de techniques de la cuisine italienne, affinant ainsi ses compétences existantes. C’est un peu la même chose que pour l’ajustement.

Apprentissage avec peu d’exemples

L’apprentissage avec peu d’exemples (ou few-shot learning) est un type d’ajustement utilisant un petit nombre d’exemples propres à une tâche dans l’invite, ce qui permet au modèle d’être plus performant dans cette tâche. Nous pouvons déjà le faire avec la conception d’invites et le LLM de base. Nous incluons des instructions et parfois plusieurs exemples dans une invite. Il s’agit en quelque sorte de préalimenter l’invite avec un petit jeu de données pertinent pour la tâche.

L’ajustement améliore l’apprentissage avec peu d’exemples en réalisant l’entraînement sur un jeu d’exemples beaucoup plus important que celui que peut généralement contenir l’invite. Cet entraînement plus poussé peut permettre d’obtenir de meilleures performances pour des tâches spécifiques. Une fois qu’un modèle a été ajusté, vous n’avez plus besoin de fournir autant d’exemples dans l’invite. Cela permet de réduire les coûts, ainsi que les temps de demande et de réponse.

Fonctionnement de l’ajustement

Passons en revue certaines des étapes nécessaires pour ajuster un LLM.

Sélection du jeu de données spécialisé

La première étape consiste à choisir un jeu de données représentatif de la tâche spécifique qui vous intéresse. Ce jeu de données est généralement beaucoup plus petit que celui utilisé pour l’entraînement initial. Concentrez-vous sur les points clés suivants.

Le jeu de données sélectionné doit correspondre à la tâche ou au domaine spécifique que vous ciblez. Par exemple, si vous ajustez un modèle pour des diagnostics médicaux reposant sur des dossiers de patient, votre jeu de données doit comporter des notes cliniques pertinentes et les diagnostics correspondants.
Comme toujours, la qualité des données est importante dans le cas des données spécialisées. Cela nécessite souvent un jeu de données plus petit et plus ciblé. Cependant, il est essentiel de disposer d’une quantité suffisante de données pour saisir les spécificités d’une tâche spécifique. Des données bruitées, contenant des erreurs ou des informations non pertinentes, peuvent entraver le processus d’ajustement. Il est crucial de prétraiter et de nettoyer les données.

Ajustement du modèle

Si l’architecture de base du modèle à ajuster reste la même, certains hyperparamètres (comme le taux d’apprentissage) peuvent être affinés pour s’adapter aux spécificités du nouveau jeu de données.

Poursuite de l’entraînement

Au lieu de reprendre l’entraînement à zéro, vous continuez à entraîner le modèle préentraîné sur le nouveau jeu de données. Comme le modèle a déjà acquis de nombreuses connaissances générales, il peut rapidement assimiler les spécificités du nouveau jeu de données.

Application des techniques de régularisation

Pour éviter que le modèle ne devienne trop adapté au nouveau jeu de données (un phénomène connu sous le nom de surapprentissage), des techniques telles que l’abandon ou la dégradation des pondérations peuvent être utilisées.

Conclusion

L’ajustement est un outil puissant pour adapter de grands modèles généraux à des tâches spécifiques. Cependant, comme tout outil, son efficacité dépend des techniques utilisées et des aspects pris en compte lors de son application. Dans l’unité suivante, nous allons découvrir les raisons pour lesquelles il peut être utile d’ajuster votre LLM.

Ressources

Documentation OpenAI : Ajustement

Durée estimée

Thèmes

Besoin d'aide ?