Présentation du traitement en langage naturel

Objectifs de formation

Une fois cette unité terminée, vous pourrez :

Décrire ce qu’est le traitement en langage naturel
Présenter les utilisations quotidiennes du traitement en langage naturel
Expliquer comment le traitement en langage naturel a évolué depuis les années 1950
Faire la différence entre le traitement en langage naturel, la compréhension du langage naturel et la génération automatique de texte

Trailcast

Pour écouter un enregistrement audio de ce module, utilisez le lecteur ci-dessous. Lorsque vous avez fini d’écouter cet enregistrement, n’oubliez pas de revenir à chaque unité, de consulter les ressources et de réaliser les évaluations associées.

Avant de commencer

Ce badge fait référence à des concepts tels que les réseaux neuronaux et l’apprentissage profond, qui sont décrits en détail dans les badges Principes fondamentaux de l’intelligence artificielle et Concepts de base de l’IA générative. Nous vous recommandons de commencer par obtenir ces badges.

Présentation du traitement en langage naturel

Le traitement du langage naturel (NLP) est un domaine de l’intelligence artificielle (IA) qui combine l’informatique et la linguistique pour donner aux applications et aux assistants IA la capacité de comprendre, d’interpréter et de générer du langage humain d’une manière pertinente et utile pour les individus. Le NLP aide les applications, les assistants IA et les agents autonomes à effectuer des tâches telles que comprendre le sens des phrases, reconnaître les détails importants d’un texte, traduire des langues, répondre à des questions, résumer un texte et générer des réponses semblables à celles que pourrait formuler un être humain.

Le NLP est déjà si répandu dans notre vie quotidienne que nous ne nous posons généralement pas de questions lorsque nous interagissons avec lui ou lorsqu’il effectue une tâche pour nous. Par exemple, de nombreuses personnes utilisent ChatGPT pour générer ou résumer un texte ou bien pour répondre à des questions. Les applications de rédaction d’e-mails ou de création de documents suggèrent automatiquement des mots ou des bouts de phrases qu’il est possible d’utiliser par la suite. Vous pouvez également demander à un assistant virtuel, comme Siri, d’effectuer une tâche pour vous, comme vous rappeler d’arroser vos plantes le mardi. Vous pouvez également faire appel à des agents autonomes pour réserver vos vacances, y compris le transport et les visites autour de votre lieu de séjour.

Les agents avec lesquels vous interagissez lorsque vous contactez le service client d’une entreprise utilisent le NLP, tout comme l’application de traduction que vous employez pour vous aider à commander un repas lorsque vous êtes à l’étranger. La détection de spam, vos préférences en matière d’actualités en ligne et bien d’autres choses encore font appel au TLN.

Bref historique du TLN

Il convient de mentionner que le NLP n’est pas nouveau. Ses origines remontent même aux années 1950, lorsque des chercheurs ont commencé à utiliser des ordinateurs pour comprendre et générer du langage humain. L’une des premières contributions notables au NLP a été le test de Turing. Développé par Alan Turing, ce test mesure la capacité d’une machine à répondre à n’importe quelle question d’une manière indiscernable de celle d’un être humain. Peu de temps après, les premiers systèmes de traduction automatique ont été mis au point. Il s’agissait d’expériences de traduction de phrases et d’expressions qui n’ont pas été très concluantes, car elles s’appuyaient sur des schémas linguistiques très spécifiques, comme des phrases ou des expressions prédéfinies.

Un ordinateur de type mainframe des années 1950 utilisé par un informaticien.

Dans les années 1960, les chercheurs expérimentaient des systèmes fondés sur des règles qui permettaient à leurs utilisateurs de demander à l’ordinateur d’accomplir des tâches ou de mener des conversations.

Au cours des années 1970 et 1980, des approches plus sophistiquées ont vu le jour. Elles étaient axées sur les connaissances et utilisaient des règles linguistiques, un raisonnement fondé sur des règles et des renseignements propres à des domaines d’expertise spécifiques dans le but de réaliser des tâches telles que l’exécution de commandes et le diagnostic de pathologies.

Les approches statistiques (c’est-à-dire l’apprentissage à partir des données) du NLP étaient populaires dans les années 1990 et au début des années 2000. Elles ont conduit à des progrès dans la reconnaissance vocale, la traduction automatique et les algorithmes automatiques. Durant cette période, l’apparition du World Wide Web en 1993 a rendu possible l’accès à de grandes quantités de données textuelles pour la recherche sur le NLP.

Une pile de documents et de livres.

Depuis 2009 environ, les réseaux neuronaux et l’apprentissage profond occupent une place prépondérante dans les activités de recherche et de développement en matière de NLP. Les aspects du NLP se rapportant à la traduction et à la génération automatique de textes, auxquels est associé l’outil ChatGPT, ont connu des progrès considérables et continuent d’évoluer rapidement.

Remarque :

Pour obtenir davantage d’informations sur ces progrès et sur d’autres avancées importantes du NLP, consultez la section Ressources.

Le langage humain, un langage « naturel »

Qu’est-ce que le langage naturel, au juste ? La notion de « langage naturel » fait référence à la manière dont les individus communiquent entre eux en utilisant des mots et des phrases. C’est le langage que nous utilisons dans les conversations, ainsi que lorsque nous lisons, écrivons ou écoutons. Nous avons recours au langage naturel pour transmettre des informations, exprimer des idées, poser des questions, raconter des histoires et interagir les uns avec les autres sur les réseaux sociaux. Toutefois, comment l’IA interprète-t-elle le langage naturel ? Pour répondre à cette question, nous devons examiner la manière dont les informations et les données sont structurées.

Remarque : bien que des modèles de NLP aient été développés dans de nombreuses langues différentes, ce module se concentre sur le NLP en français.

Données structurées et non structurées

Auparavant, pour qu’un ordinateur comprenne ce que nous voulions dire, les informations devaient être bien définies et organisées, de la même manière que dans une feuille de calcul ou une base de données. C’est ce que l’on appelle des données structurées. La nature des informations incluses dans les données structurées et la façon dont celles-ci sont formatées sont déterminées par les algorithmes utilisés par l’application cible. En général, elles nécessitent un traitement des données ou des saisies de données supplémentaires.

Voici à quoi les informations relatives à un chien de refuge proposé à l’adoption pourraient ressembler sous forme de données structurées dans une base de données permettant de faire correspondre le profil d’animaux à celui d’adoptants potentiels. Imaginez comment les résultats obtenus via de telles données, (par exemple les résultats d’une recherche sur un type précis d’animal de compagnie ou la description d’un site Web) seraient rigides et limités à des utilisations spécifiques.

Nom : Tala
Âge : 5 ans
Castré(e) ou stérilisé(e) : stérilisé(e)
Sexe : femelle
Race : husky
Poids : 30 kilos
Couleur : gris et blanc
Couleur des yeux : Bleu
S’entend avec les enfants : Oui
S’entend avec les chats : Oui
Activités préférées : sorties au parc, promenades, se faire brosser
Dans Empiler par, il a sélectionné Emplacement : Troutdale

À l’inverse, le langage naturel (la façon dont nous parlons) n’est pas structuré, ce qui signifie que si nous, les humains, pouvons généralement en comprendre le sens, l’IA a besoin d’outils tels que la génération augmentée de récupération (RAG) pour connecter les données ou la base de connaissances d’une entreprise à de grands modèles de langage (LLM) afin de comprendre le sens et d’améliorer le contexte et la précision du texte, du discours oral et des résultats générés.

Le paragraphe suivant est un exemple de la manière dont les mêmes informations relatives à un chien de refuge, présentées sous forme de données non structurées, peuvent être utilisées par l’IA pour fournir des résultats plus poussés, tant sur le plan contextuel que conversationnel, dans de nombreux cas d’utilisation.

Tala est une femelle husky stérilisée de 30 kilos âgée de 5 ans qui aime jouer au parc et faire de longues promenades. Elle est très gentille avec les jeunes enfants et s’entend bien avec les chats. Cette mignonne chienne aux yeux bleus a un long pelage gris et blanc qui nécessitera un brossage régulier. Vous pouvez planifier un rendez-vous pour rencontrer Tala en appelant le refuge de Troutdale.

Compréhension du langage naturel et génération automatique de texte

Le NLP s’est développé et comprend aujourd’hui deux sous-domaines, la compréhension du langage naturel (CLN) et la génération automatique de texte (GAT). Le processus de conversion de données non structurées en données structurées est appelé compréhension du langage naturel (CLN). La CLN a recours à de nombreuses techniques pour interpréter le langage écrit ou parlé afin de comprendre le sens et le contexte qui le sous-tendent. Nous vous présenterons ces différentes techniques dans l’unité suivante.

La conversion des données dans le sens inverse (de structurées à non structurées) est appelée génération automatique de texte (GAT). La GAT permet aux assistants IA de générer un langage semblable à celui des individus. La GAT est associée au développement d’algorithmes et de modèles qui convertissent des données ou des informations structurées en textes ou en discours pertinents, adéquats sur le plan contextuel et naturels. Elle s’intéresse également à la génération de code dans des langages de programmation donnés, comme l’écriture d’une fonction Python permettant de trier des chaînes de caractères.

Par le passé, les tâches de CLN et de GAT avaient recours à des représentations structurées linguistiques explicites, telles que des arbres syntaxiques. Bien que la CLN et la GAT soient toujours essentielles au NLP aujourd’hui, la plupart des applications, des outils et des assistants virtuels avec lesquels nous communiquons ont évolué de sorte à pouvoir utiliser l’apprentissage profond ou les réseaux neuronaux pour réaliser des tâches de bout en bout. Par exemple, un système de traduction automatique neuronale peut directement traduire une phrase du chinois vers l’anglais sans avoir à créer explicitement de structure intermédiaire. Comme les réseaux neuronaux reconnaissent des schémas linguistiques, des mots et des expressions, cela rend le traitement du langage bien plus rapide et précis sur le plan contextuel.

Dans l’unité suivante, vous en apprendrez davantage sur nos méthodes et nos techniques de langage naturel qui permettent aux assistants IA de comprendre ce que nous disons et de formuler des réponses en conséquence.

Durée estimée

Thèmes

Besoin d'aide ?

Présentation du traitement en langage naturel

Objectifs de formation

Trailcast

Avant de commencer

Présentation du traitement en langage naturel

Bref historique du TLN

Le langage humain, un langage « naturel »

Données structurées et non structurées

Compréhension du langage naturel et génération automatique de texte

Ressources