Découverte de l’analyse du langage naturel
Objectifs de formation
Une fois cette unité terminée, vous pourrez :
- Présenter les éléments de base du langage naturel
- Décrire plusieurs techniques importantes employées lors de l’analyse du langage naturel
- Expliquer le rôle joué par l’analyse du sentiment, de l’intention et du contexte dans le TLN
Éléments de base du langage naturel
La compréhension et le traitement en langage naturel représentent un défi de taille pour les ordinateurs. En effet, cela implique non seulement de reconnaître chacun des mots en tant que tels, mais également de comprendre les relations qu’il y a entre eux, le contexte qui les entoure et leur signification.
Notre langage naturel, aussi bien à l’écrit qu’à l’oral, se caractérise par un ensemble infini de complexités, de nuances, d’ambiguïtés et d’erreurs. Lorsque nous communiquons au quotidien, il nous arrive d’être confrontés à des mots qui ont plusieurs sens ou qui se prononcent de la même manière mais qui s’écrivent différemment et ont des significations différentes, sans parler des adjectifs ou adverbes mal placés, des fautes d’orthographe et des erreurs de prononciation. Nous avons également affaire à des personnes qui parlent vite, marmonnent ou mettent une éternité à en venir au fait, ainsi qu’à des individus s’exprimant avec un accent ou employant des dialectes différents des nôtres.
Prenons l’exemple de cette phrase :
« Nous avons vu six bisons en vacances dans le parc national de Yellowstone. »
Vous pourriez rire en imaginant six bisons portant des chapeaux et des lunettes de soleil et faisant des selfies devant le geyser Old Faithful. Cependant, vous comprenez certainement ce dont il est réellement question : des personnes en vacances dans le parc national de Yellowstone ont vu six bisons.
Voici un autre exemple :
« Il a reçu un massage. »
Si vous entendez quelqu’un prononcer cette phrase sans aucun contexte, vous pourriez penser que la personne impliquée a reçu un SMS, alors qu’en réalité, elle s’est fait masser. La prononciation de « massage » et de « message » est certes légèrement différente, mais cette différence n’est parfois pas suffisamment évidente lorsque ces mots sont prononcés.
Alors que les êtres humains sont capables de faire preuve de souplesse et de s’adapter assez facilement aux variations du langage, il est relativement complexe d’entraîner un ordinateur à prendre en compte ce genre de nuances.
En français, les éléments constituant le langage naturel sont les suivants :
-
Le vocabulaire : les mots que nous utilisons
-
Grammaire : les règles régissant la structure des phrases
-
La syntaxe : la manière dont les mots sont combinés pour former des phrases selon la grammaire
-
La sémantique : le sens des mots, des expressions et des phrases
-
La pragmatique : le contexte et l’intention liés à l’utilisation du langage culturel ou géographique
-
Le discours et le dialogue : les unités langagières plus vastes qu’une seule expression ou phrase, notamment les documents et les conversations
-
La phonétique et la phonologie : les sons que nous produisons lorsque nous communiquons
-
La morphologie : la manière dont des parties de mots peuvent être combinées ou dissociées pour former de nouveaux mots
Analyse du langage naturel
Apprendre à un ordinateur à lire et à déduire le sens des mots, c’est un peu comme apprendre à lire à un enfant : dans les deux cas, ils apprennent à reconnaître les mots, leurs sons, leur sens et leur prononciation. Cependant, un enfant est généralement avantagé, car il peut se fier au contexte des histoires, aux indices visuels présents dans les illustrations, et aux rapports avec des choses qu’il connaît déjà, comme des arbres ou des animaux. Il reçoit également souvent de l’aide et des encouragements de lecteurs expérimentés, qui peuvent lui expliquer ce qu’il est en train d’apprendre. Ces indices aident les nouveaux lecteurs à identifier les mots et les expressions et à leur donner un sens. Ils pourront ensuite généraliser ces connaissances pour comprendre d’autres textes qu’ils liront à l’avenir.
Nous savons que les ordinateurs constituent un type différent d’intelligence. Ainsi, même si un ordinateur doit comprendre les éléments du langage naturel décrits ci-dessus, l’approche employée à cette fin doit être beaucoup plus scientifique. Le TLN utilise des algorithmes et des méthodes comme les grands modèles de langage (LLM), les modèles statistiques, l’apprentissage automatique, l’apprentissage profond et les systèmes fondés sur des règles pour traiter et analyser du texte. Ces techniques se rapportent à une pratique nommée analyse, qui consiste à décomposer le texte ou la parole en plus petits segments afin de les classifier pour le TLN. Cette pratique se compose de l’analyse syntaxique, visant à étudier les éléments du langage naturel pour en identifier la structure grammaticale sous-jacente, et de l’analyse sémantique, qui en déduit un sens.
Comme mentionné dans la précédente unité, le langage naturel est analysé de différentes manières pour atteindre les résultats escomptés. Par exemple, le langage naturel devant être traité par une application de traduction n’est pas analysé de la même manière et à l’aide des mêmes algorithmes ou modèles que s’il devait être traité par un assistant virtuel comme Alexa.
L’analyse syntaxique peut inclure les opérations suivantes :
-
Segmentation : les textes de grande taille sont divisés en morceaux plus petits et pertinents. La segmentation s’effectue généralement au niveau des signes de ponctuation à la fin des phrases, afin d’organiser le texte en vue de l’analyser de manière plus poussée.
-
Tokénisation : les phrases sont découpées en mots individuels, appelés « tokens ». En français, la tokénisation est une tâche assez simple, car les mots sont généralement séparés par des espaces. Pour des langues comme le thaï ou le chinois, la tokénisation est beaucoup plus compliquée. La compréhension du vocabulaire et de la morphologie de la langue constitue un critère très important pour obtenir des résultats précis.
-
Racinisation : les mots sont réduits à leur racine, ou radical. Par exemple, les mots laitier, laitage ou laiterie ont tous pour radical lait. La racinisation aide à réduire les variations des formes de mots, mais, selon le contexte, elle ne permet pas toujours d’obtenir le radical le plus précis. Prenons ces deux exemples de racinisation :
« Je promène mon chien avec une laisse. »
Radical = laiss
« Il laisse toujours la clé dans la serrure. »
Radical = laiss
-
Lemmatisation : à la manière de la racinisation, la lemmatisation permet d’obtenir la racine des mots, mais prend en compte la partie du discours qu’ils représentent pour présenter un mot racine beaucoup plus pertinent, appelé lemme. Voici les deux mêmes exemples, mais en employant cette fois la lemmatisation :
« Je promène mon chien avec une laisse. »
Lemme = laisse
« Il laisse toujours la clé dans la serrure. »
Lemme = laisser
-
Balisage des parties du discours : cette méthode consiste à attribuer des étiquettes ou balises grammaticales à chaque mot en fonction de la partie du discours qu’il représente, comme un nom, un adjectif, un verbe, etc. Le balisage des parties du discours joue un rôle important dans le TLN, car il aide les ordinateurs à comprendre la syntaxe d’une phrase.
-
Reconnaissance d’entités nommées (NER) : cette méthode a recours à des algorithmes pour identifier et classifier des entités nommées (personnes, dates, lieux, organisations, etc.) dans le texte afin de faciliter la réalisation de tâches telles que la formulation de réponses à des questions et l’extraction d’informations.
Analyse sémantique
L’analyse du langage naturel via la mise en œuvre de tout ou partie des étapes que nous venons de décrire permet de déchiffrer le sens d’un texte ou d’un discours oral de manière relativement efficace. Cependant, elle ne s’appuie pas sur les compétences non techniques permettant de détecter les nuances qui sont l’essence même du langage humain. L’analyse sémantique consiste à analyser le format grammatical des phrases et les relations entre les mots et les expressions pour identifier la représentation du sens. Il est crucial de parvenir à saisir le sentiment des personnes, la raison pour laquelle elles interagissent et les détails sur les circonstances d’une interaction pour déterminer précisément le sens du texte ou de la parole et élaborer une réponse appropriée.
Voici plusieurs techniques d’analyse courantes utilisées dans le TLN. Chacune de ces techniques peut reposer sur un certain nombre d’algorithmes différents pour parvenir au niveau de compréhension souhaité en fonction de la tâche spécifique et de la complexité de l’analyse.
Analyse des sentiments : il s’agit de déterminer si un texte (comme une phrase, une publication sur les réseaux sociaux, un avis ou un tweet) exprime un sentiment positif, négatif ou neutre. Un sentiment est une émotion ou une attitude envers quelque chose. Par exemple, l’analyse des sentiments peut déterminer si cet avis d’un client au sujet d’un service est positif ou négatif : « J’ai dû attendre très longtemps pour me faire couper les cheveux. » Le sentiment permet d’identifier et de classifier les émotions ou les opinions apparaissant dans un texte pour aider les entreprises à comprendre ce que les personnes pensent de leurs produits, services ou expériences.
Analyse de l’intention : l’intention nous aide à déterminer ce que quelqu’un veut ou souhaite faire comprendre en fonction de ce qu’il dit ou écrit. Cela revient à déterminer le but ou l’intention que représentent ses mots. Par exemple, si un utilisateur écrit « Je ne peux pas me connecter à mon compte » à un agent conversationnel de support client, l’analyse de l’intention reconnaîtra que la personne souhaite obtenir de l’aide pour accéder à son compte. L’agent conversationnel peut répondre en présentant des informations sur la réinitialisation du mot de passe ou d’autres suggestions que l’utilisateur peut appliquer afin d’accéder à son compte. Les assistants virtuels, les systèmes de support client ou les agents conversationnels ont souvent recours à l’analyse de l’intention pour comprendre les demandes des utilisateurs et fournir des réponses ou suggérer des actions appropriées.
Analyse du contexte (discours) : le langage naturel dépend fortement du contexte. La manière dont une affirmation est interprétée peut changer en fonction de la situation, des détails fournis et de tout facteur de compréhension mutuelle entre les personnes qui communiquent. L’analyse du contexte consiste à comprendre ces informations contextuelles pour donner un sens à un texte. Par exemple, si quelqu’un dit : « Il est tombé dans les pommes », l’analyse du contexte peut déterminer si la personne s’est évanouie ou si elle a effectivement chuté sur des pommes. Pour ce faire, elle tient compte de la conversation précédente ou du sujet abordé dans la discussion. L’analyse du contexte aide les systèmes de TLN à interpréter les mots avec plus de précision en tenant compte des relations entre ceux-ci, du contexte global et d’autres informations pertinentes.
Ces trois techniques d’analyse (analyse des sentiments, analyse de l’intention et analyse du contexte) jouent un rôle important dans l’extraction d’informations précieuses à partir des données textuelles et vocales. Elles permettent de comprendre le contenu textuel et d’interagir avec celui-ci de manière plus avancée dans diverses applications du TLN.
Récapitulatif
Dans ce module, vous avez découvert le TLN de manière très générale, tel qu’il se rapporte à la langue française. À ce jour, la majorité des études sur le TLN portent sur la langue anglaise, mais vous pouvez également trouver de nombreuses recherches se rapportant à l’espagnol, au français, au farsi, à l’ourdou, au chinois et à l’arabe. Le TLN est un domaine de l’IA qui évolue très rapidement. En outre, les progrès du TLN sont vecteurs d’avancées rapides en matière de compréhension du langage, de capacités interlinguistiques et d’intégrations avec d’autres domaines de l’IA.