Présentation du traitement en langage naturel
Objectifs de formation
Une fois cette unité terminée, vous pourrez :
- Décrire ce qu’est le traitement en langage naturel
- Présenter les utilisations quotidiennes du traitement en langage naturel
- Expliquer comment le traitement en langage naturel a évolué depuis les années 1950
- Faire la différence entre le traitement en langage naturel, la compréhension du langage naturel et la génération automatique de texte
Avant de commencer
Ce badge fait référence à des concepts tels que les réseaux neuronaux et l’apprentissage profond, qui sont décrits en détail dans les badges Principes fondamentaux de l’intelligence artificielle et Concepts de base de l’IA générative. Nous vous recommandons de commencer par obtenir ces badges.
Présentation du traitement en langage naturel
Le traitement en langage naturel (TLN) est un domaine de l’intelligence artificielle (IA) qui combine l’informatique et la linguistique pour donner aux ordinateurs la capacité de comprendre, d’interpréter et de générer du langage humain d’une manière pertinente et utile pour les individus.
Le TLN aide les ordinateurs à effectuer des tâches utiles telles que comprendre le sens des phrases, reconnaître les détails importants d’un texte, traduire des langues, répondre à des questions, résumer un texte et générer des réponses semblables à celles que pourrait formuler un être humain.
Le TLN est déjà si répandu dans notre vie quotidienne que nous ne nous posons généralement pas de questions lorsque nous interagissons avec lui ou lorsqu’il effectue une tâche pour nous. Par exemple, peut-être que votre application de messagerie ou de création de document suggère automatiquement le prochain mot ou la prochaine expression que vous pourriez utiliser. Vous pouvez également demander à un assistant virtuel, comme Siri, de vous rappeler d’arroser vos plantes le mardi. Enfin, vous pourriez très bien demander à Alexa de vous donner des informations sur le dernier grand tremblement de terre au Chili pour le projet scientifique de votre fille.
Les agents conversationnels avec lesquels vous interagissez lorsque vous contactez le service client d’une entreprise utilisent le TLN, tout comme l’application de traduction que vous employez pour vous aider à commander un repas lorsque vous êtes à l’étranger. La détection de spam, vos préférences en matière d’actualités en ligne et bien d’autres choses encore font appel au TLN.
Bref historique du TLN
Il convient de mentionner que le TLN n’est pas nouveau. Ses origines remontent même aux années 1950, lorsque des chercheurs ont commencé à utiliser des ordinateurs pour comprendre et générer du langage humain. L’une des premières contributions notables au TLN a été le test de Turing. Développé par Alan Turing, ce test mesure la capacité d’une machine à répondre à n’importe quelle question d’une manière indiscernable de celle d’un être humain. Peu de temps après, les premiers systèmes de traduction automatique ont été mis au point. Il s’agissait d’expériences de traduction de phrases et d’expressions qui n’ont pas été très concluantes, car elles s’appuyaient sur des schémas linguistiques très spécifiques, comme des phrases ou des expressions prédéfinies.
Dans les années 1960, les chercheurs expérimentaient des systèmes fondés sur des règles qui permettaient à leurs utilisateurs de demander à l’ordinateur d’accomplir des tâches ou de mener des conversations.
Au cours des années 1970 et 1980, des approches plus sophistiquées ont vu le jour. Elles étaient axées sur les connaissances et utilisaient des règles linguistiques, un raisonnement fondé sur des règles et des renseignements propres à des domaines d’expertise spécifiques dans le but de réaliser des tâches telles que l’exécution de commandes et le diagnostic de pathologies.
Les approches statistiques (c’est-à-dire l’apprentissage à partir des données) du TLN étaient populaires dans les années 1990 et au début des années 2000. Elles ont conduit à des progrès dans la reconnaissance vocale, la traduction automatique et les algorithmes automatiques. Durant cette période, l’apparition du World Wide Web en 1993 a rendu possible l’accès à de grandes quantités de données textuelles pour la recherche sur le TLN.
Depuis 2009 environ, les réseaux neuronaux et l’apprentissage profond occupent une place prépondérante dans les activités de recherche et de développement en matière de TLN. Les aspects du TLN se rapportant à la traduction et à la génération automatique de textes, auxquels est associé l’outil ChatGPT apparu récemment, ont connu des progrès considérables et continuent d’évoluer rapidement.
Le langage humain, un langage « naturel »
Qu’est-ce que le langage naturel, au juste ? La notion de « langage naturel » fait référence à la manière dont les individus communiquent entre eux en utilisant des mots et des phrases. C’est le langage que nous utilisons dans les conversations, ainsi que lorsque nous lisons, écrivons ou écoutons. Nous avons recours au langage naturel pour transmettre des informations, exprimer des idées, poser des questions, raconter des histoires et interagir les uns avec les autres. Bien que des modèles de TLN soient en cours de développement dans de nombreuses langues différentes, ce module se concentre sur le TLN en français.
Si vous avez terminé le badge Principes fondamentaux de l’intelligence artificielle, vous avez découvert les données non structurées et les données structurées. Ces concepts sont également importants pour le TLN. Le langage naturel, c’est-à-dire la façon dont nous nous exprimons couramment, est constitué de données non structurées. Alors que les êtres humains pourront généralement comprendre sa signification, des ordinateurs ne disposeront pas des détails adéquats pour pouvoir l’interpréter. Le paragraphe suivant, qui parle d’un chien de refuge proposé à l’adoption, représente un exemple de données non structurées.
Tala est une femelle husky stérilisée de 30 kilos âgée de 5 ans qui aime jouer au parc et faire de longues promenades. Elle est très gentille avec les jeunes enfants et s’entend bien avec les chats. Cette mignonne chienne aux yeux bleus a un long pelage gris et blanc qui nécessitera un brossage régulier. Vous pouvez planifier un rendez-vous pour rencontrer Tala en appelant le refuge de Troutdale.
Pour qu’un ordinateur comprenne ce que nous voulons dire, ces informations doivent être bien définies et organisées, de la même manière que dans une feuille de calcul ou une base de données. C’est ce que l’on appelle des données structurées. La nature des informations incluses dans les données structurées et la façon dont celles-ci sont formatées sont déterminées par des algorithmes utilisés par l’application cible souhaitée. Par exemple, les données destinées à être traitées par une application de traduction sont structurées différemment de celles destinées à un agent conversationnel. Voici à quoi les informations du paragraphe ci-dessus pourraient ressembler sous forme de données structurées destinées à une application qui peut aider à faire correspondre le profil de chiens à celui d’adoptants potentiels.
- Nom : Tala
- Âge : 5
- Castré(e) ou stérilisé(e) : stérilisé(e)
- Sexe : femelle
- Race : husky
- Poids : 30 kilos
- Couleur : gris et blanc
- Couleur des yeux : Bleu
- S’entend avec les enfants : Oui
- S’entend avec les chats : Oui
- Activités préférées : sorties au parc, promenades
- Emplacement : Troutdale
Compréhension du langage naturel et génération automatique de texte
Le TLN s’est développé et comprend aujourd’hui deux sous-domaines, la compréhension du langage naturel (CLN) et la génération automatique de texte (GAT). Le processus de conversion de données non structurées en données structurées est appelé compréhension du langage naturel (CLN). La CLN a recours à de nombreuses techniques pour interpréter le langage écrit ou parlé afin de comprendre le sens et le contexte qui le sous-tendent. Nous vous présenterons ces différentes techniques dans l’unité suivante.
La conversion des données dans le sens inverse (de structurées à non structurées) est appelée génération automatique de texte (GAT). La GAT permet aux ordinateurs de générer un langage semblable à celui des individus. La GAT est associée au développement d’algorithmes et de modèles qui convertissent des données ou des informations structurées en textes ou en discours pertinents, adéquats sur le plan contextuel et naturels. Elle s’intéresse également à la génération de code dans des langages de programmation donnés, comme l’écriture d’une fonction Python permettant de trier des chaînes de caractères.
Par le passé, les tâches de CLN et de GAT avaient recours à des représentations structurées linguistiques explicites, telles que des arbres syntaxiques. Bien que la CLN et la GAT soient toujours essentielles au TLN aujourd’hui, la plupart des applications, des outils et des assistants virtuels avec lesquels nous communiquons ont évolué de sorte à pouvoir utiliser l’apprentissage profond ou les réseaux neuronaux pour réaliser des tâches de bout en bout. Par exemple, un système de traduction automatique neuronale peut directement traduire une phrase du chinois vers l’anglais sans avoir à créer explicitement de structure intermédiaire. Comme les réseaux neuronaux reconnaissent des schémas linguistiques, des mots et des expressions, cela rend le traitement du langage bien plus rapide et précis sur le plan contextuel.
Dans l’unité suivante, vous en apprendrez davantage sur nos méthodes et nos techniques de langage naturel qui permettent aux ordinateurs de comprendre ce que nous disons et de formuler des réponses en conséquence.