Préparation pour l’ajustement

Objectifs de formation

Une fois cette unité terminée, vous pourrez :

Décrire la préparation d’un jeu de données pour l’ajustement
Donner un aperçu du processus d’ajustement

Préparation de votre jeu de données

La première étape consiste à préparer le jeu de données propre à la tâche souhaitée pour l’ajustement. Cela peut inclure le nettoyage des données, la normalisation du texte et la conversion des données dans un format compatible avec les exigences de saisie du LLM (en d’autres termes, l’étiquetage des données). Il est essentiel de s’assurer que les données sont représentatives de la tâche et du domaine, et qu’elles couvrent un éventail de scénarios que le modèle devrait rencontrer en production. Voici comment préparer votre jeu de données pour l’ajustement.

Collecte des données

Rassemblez les données pertinentes pour le domaine ou la tâche spécifique. Cela peut impliquer la collecte d’interactions utilisateur ou l’utilisation de données propres à un domaine.

Nettoyage des données

Supprimez les données non pertinentes, corrigez les erreurs et anonymisez éventuellement les informations sensibles.

Division du jeu de données

Partitionnez vos données en 3 ensembles : un pour l’entraînement, un pour la validation et un pour le test. Le modèle est entraîné sur l’ensemble d’entraînement, les hyperparamètres sont ajustés à l’aide de l’ensemble de validation et les performances sont évaluées avec l’ensemble de test.

Configuration de votre modèle

Le choix du modèle de base et de la méthode d’ajustement appropriés dépend de la tâche spécifique et des données disponibles. Il existe différentes architectures de LLM parmi lesquelles choisir, notamment GPT-3.5 Turbo, BERT et RoBERTa, chacune ayant ses propres avantages et inconvénients. La méthode d’ajustement peut également varier en fonction de la tâche et des données, comme l’apprentissage par transfert, l’ajustement séquentiel ou l’ajustement propre à une tâche.

Choix du modèle

Tenez compte des éléments suivants lors du choix de votre modèle de base :

La pertinence du modèle par rapport à votre tâche spécifique
La taille d’entrée et de sortie du modèle
La taille de votre jeu de données
La pertinence de l’infrastructure technique pour la puissance de calcul requise pour l’ajustement

Choix de l’architecture

Ajustez certains composants en fonction de la tâche, comme la dernière couche pour les tâches de classification. Notez que l’architecture du modèle de base restera la même.

Choix des hyperparamètres

Déterminez les valeurs du taux d’apprentissage, de la taille du lot, du nombre d’epochs et des paramètres de régularisation. Parfois, il est préférable d’utiliser un taux d’apprentissage plus faible, car des mises à jour agressives pourraient faire oublier au modèle les connaissances acquises lors de son préentraînement.

Ajustement de votre modèle

Une fois le LLM et la méthode d’ajustement sélectionnés, le modèle préentraîné doit être chargé dans la mémoire. Cette étape initialise les pondérations du modèle en fonction des valeurs préentraînées, ce qui accélère le processus d’ajustement et garantit que le modèle a déjà acquis une compréhension générale du langage.

Initialisation avec les pondérations préentraînées

Commencez avec les pondérations du modèle préentraîné. C’est l’essence même de l’apprentissage par transfert, qui consiste à tirer parti des connaissances acquises lors d’un précédent entraînement.

Apprentissage adaptatif

Dans certains scénarios avancés, vous pouvez utiliser des techniques qui adaptent le taux d’apprentissage aux différentes couches. Par exemple, les couches antérieures (qui capturent les caractéristiques générales) peuvent être mises à jour avec des taux d’apprentissage inférieurs à ceux des couches ultérieures.

Régularisation

Des techniques telles que l’abandon, la dégradation des pondérations ou la normalisation des couches peuvent être cruciales pour éviter le surapprentissage, en particulier lorsque le jeu de données d’ajustement est relativement petit.

Surveillance et évaluation de votre modèle

Cette étape implique l’entraînement du LLM préentraîné sur le jeu de données propre à la tâche. Le processus d’entraînement consiste à optimiser les pondérations et les paramètres du modèle afin de minimiser la fonction de perte et d’améliorer ses performances dans le cadre de la tâche. Le processus d’ajustement peut comporter plusieurs cycles d’entraînement sur l’ensemble d’entraînement, plusieurs cycles de validation sur l’ensemble de validation et plusieurs cycles d’ajustement des hyperparamètres pour optimiser les performances du modèle.

Suivi de la perte et des métriques

Surveillez en permanence la perte sur vos ensembles d’entraînement et de validation pendant l’entraînement. Cela aide à détecter le surapprentissage ou les problèmes relatifs à l’entraînement.

Arrêt anticipé

Interrompez l’entraînement si les performances sur l’ensemble de validation commencent à se dégrader (même si les performances de l’ensemble d’entraînement s’améliorent) : il s’agit d’un signe de surapprentissage. Cela permet d’éviter que le modèle ne s’adapte trop aux données d’apprentissage.

Métriques d'évaluation

Utilisez des métriques appropriées (telles que l’exactitude, le score F1 et le score BLEU) pour évaluer les performances du modèle sur l’ensemble de test. Les métriques utilisées dépendent de la tâche effectuée, telles que la classification, les régressions, la génération, etc.

Réalisation de réglages après le processus d’ajustement

Une fois le processus d’ajustement terminé, les performances du modèle doivent être évaluées sur l’ensemble de test. Cette étape permet de s’assurer que le modèle se généralise bien aux nouvelles données et qu’il est performant pour la tâche spécifique. Les métriques courantes utilisées pour l’évaluation incluent l’exactitude, la précision et le rappel.

Étalonnage

Ajustez les sorties du modèle pour mieux refléter les probabilités réelles. Parfois, un modèle ajusté peut être trop ou pas assez confiant dans ses prédictions.

Processus de retour d’informations

Mettez en place un système qui permet aux utilisateurs finaux de faire part de leurs retours sur les sorties du modèle. Ces retours peuvent être utilisés pour d’autres cycles d’ajustement, ce qui conduit à une amélioration continue.

Déploiement de votre modèle

Une fois le modèle ajusté évalué, il peut être déployé dans des environnements de production. Le processus de déploiement peut impliquer l’intégration du modèle à un système plus vaste, la mise en place de l’infrastructure adéquate et la surveillance des performances du modèle dans des scénarios réels.

Taille du modèle

Après l’ajustement, envisagez la distillation ou l’élagage du modèle afin de réduire sa taille sans compromettre de manière significative ses performances. Ceci peut changer en fonction de l’endroit où votre modèle est déployé, comme les appareils en périphérie, les serveurs Web, etc.

Conclusion

Si le concept d’ajustement peut paraître simple, en pratique, il implique une série d’étapes et de décisions mûrement réfléchies. Chaque étape, de la préparation des données au déploiement, peut avoir un impact significatif sur l’efficacité et l’efficience du modèle dans le domaine ou la tâche cible.

Durée estimée

Thèmes

Besoin d'aide ?