Parsing von natürlicher Sprache
Lernziele
Nachdem Sie diese Lektion abgeschlossen haben, sind Sie in der Lage, die folgenden Aufgaben auszuführen:
- Nennen der Grundelemente natürlicher Sprache
- Beschreiben mehrerer wichtiger Verfahren, die beim Parsen natürlicher Sprache verwendet werden
- Erläutern, wie Gefühls-, Absichts- und Kontextanalysen zu NLP beitragen
Grundelemente natürlicher Sprache
Das Verstehen und Verarbeiten natürlicher Sprache ist eine grundlegende Herausforderung für Computer. Es geht nämlich nicht nur darum, einzelne Wörter zu erkennen, sondern auch ihre Beziehungen, ihren Kontext und ihre Bedeutung zu erfassen.
Unsere natürliche Sprache, in Text und Sprache, ist unendlich komplex, nuanciert, mehrdeutig und fehlerhaft. In unserer alltäglichen Kommunikation begegnen wir Wörtern mit mehreren Bedeutungen, Wörtern, die gleich klingen, aber unterschiedlich geschrieben werden und unterschiedliche Bedeutungen haben, falsch platzierten Modifikatoren, Rechtschreibfehlern und falscher Aussprache. Außerdem begegnen wir Menschen, die schnell sprechen, nuscheln oder ewig brauchen, um auf den Punkt zu kommen, sowie Menschen, die Sprachmuster in Akzenten oder Dialekten verwenden, die sich von unseren unterscheiden.
Nehmen Sie z. B. diesen Satz:
“We saw six bison on vacation in Yellowstone National Park.”
Vielleicht müssen Sie lachen, wenn Sie sich sechs Bisons mit Hüten und Sonnenbrillen vorstellen, die vor Old Faithful für Selfies posieren. Aber wahrscheinlich verstehen Sie intuitiv, was tatsächlich meint ist, nämlich dass jemand, der im Yellowstone-Nationalpark im Urlaub war, sechs Bisons gesehen hat.
Oder diesen:
“They swam out to the buoy.”
Wenn Sie jemanden diesen Satz ohne Kontext sagen hören, denken Sie vielleicht, dass die Beteiligten zu einem Jungen schwimmen, obwohl ihr Ziel in Wirklichkeit eine Boje war. Die Aussprache von "boy" und "buoy" unterscheidet sich geringfügig, ist aber nicht immer deutlich zu hören.
Während Menschen in der Lage sind, ihre Sprache relativ leicht zu verändern und anzupassen, ist es ziemlich schwierig, einem Computer darauf zu trainieren, diese Art von Nuancen zu berücksichtigen.
Zu Elementen der natürlichen Sprache gehören in Englisch:
-
Vokabular: Die Wörter, die wir verwenden
-
Grammatik: Die Regeln für den Satzbau
-
Syntax: Wie Sätze gemäß der Grammatik aus Wörtern gebildet werden
-
Semantik: Die Bedeutung von Wörtern, Phrasen und Sätzen
-
Pragmatik: Der Kontext und die Absicht hinter dem kulturellen oder geografischen Sprachgebrauch
-
Diskurs und Dialog: Einheiten, die mehr als ein einzelner Satz oder eine Phrase sind, einschließlich Dokumenten und Gesprächen
-
Phonetik und Phonologie: Die Geräusche, die wir machen, wenn wir kommunizieren
-
Morphologie: Wie Teile von Wörtern zur Bildung neuer Wörter kombiniert oder getrennt werden können
Parsing von natürlicher Sprache
Einem Computer das Lesen beizubringen und die Bedeutung von Wörtern zu erschließen, ist ein bisschen so, wie einem Kind das Lesen beizubringen: Beide lernen Wörter, ihren Klang, ihre Bedeutung und ihre Aussprache zu erkennen. Aber wenn ein Kind lesen lernt, hat es in der Regel den Vorteil, dass es einen Kontext aus einer Geschichte, visuelle Hinweise aus Illustrationen und Bezüge zu ihm bekannten Dingen, wie Bäume oder Tiere, hat. Außerdem erhalten Kinder oft Unterstützung und Aufmunterung von erfahrenen Lesern, die ihnen erklären, was sie gerade lernen. Diese Hinweise helfen Leseneulingen, Wörter und Phrasen zu erkennen und ihnen eine Bedeutung zuzuordnen, die sie auf künftigen Lesestoff übertragen können.
Wir wissen, dass Computer eine andere Art von Intelligenz haben. Während ein Computer die oben beschriebenen Elemente natürlicher Sprache verstehen muss, muss der Ansatz viel wissenschaftlicher sein. NLP verwendet Algorithmen und Methoden wie große Sprachmodelle (LLMs), statistische Modelle, maschinelles Lernen, Deep Learning und regelbasierte Systeme, um Text zu verarbeiten und zu analysieren. Bei diesen Verfahren, die als Parsing bezeichnet werden, werden Text oder Sprache in kleinere Teile zerlegt, um sie für NLP zu klassifizieren. Parsing beinhaltet das syntaktische Parsing, bei dem die Elemente der natürlichen Sprache analysiert werden, um die zugrundeliegende grammatikalische Struktur zu ermitteln, und das semantische Parsing, bei dem die Bedeutung hergeleitet wird.
Wie in der letzten Einheit erwähnt, wird natürliche Sprache auf unterschiedliche Weise geparst, um das Parsing an den gewünschten Ergebnissen auszurichten. Natürliche Sprache, die für eine Übersetzungsanwendung geparst wird, verwendet beispielsweise andere Algorithmen oder Modelle und wird anders geparst als natürliche Sprache, die für einen virtuellen Assistenten wie Alexa bestimmt ist.
Das syntaktische Parsen kann Folgendes umfassen:
-
Segmentierung: Längere Texte werden in kleinere, sinnvolle Abschnitte unterteilt. Die Segmentierung erfolgt in der Regel am Ende von Sätzen bei Satzzeichen, um den Text für die weitere Analyse zu strukturieren.
-
Tokenisierung: Sätze werden in einzelne Wörter, so genannte Token, zerlegt. In der englischen Sprache ist die Tokenisierung recht einfach, da Wörter in der Regel durch Leerzeichen getrennt werden. In Sprachen wie Thailändisch oder Chinesisch ist die Tokenisierung viel komplizierter. Die korrekte Tokenisierung der Sprache hängt hier stark vom Verständnis des Vokabulars und der Morphologie ab.
-
Stemming: Wörter werden auf ihre Grundform, den Wortstamm reduziert. So werden z. B. breaking, breaks oder unbreakable alle auf break reduziert. Stemming hilft dabei, die Variationen von Wortformen zu reduzieren. Doch je nach Kontext führt es möglicherweise nicht zum genauesten Wortstamm. Schauen Sie sich diese beiden Beispiele an, in denen Stemming eingesetzt wurde:
“I’m going outside to rake leaves.”
Stamm = leave
“He always leaves the key in the lock.”
Stamm = leave
-
Lemmatisierung: Ähnlich wie beim Stemming, reduziert die Lemmatisierung Wörter auf ihre Grundform, berücksichtigt dabei jedoch die Wortart und liefert dadurch viel eher den richtigen Wortstamm, Lemma genannt. Dies sind die beiden gleichen Beispiele mit Lemmatisierung:
“I’m going outside to rake leaves.”
Lemma = leaf
“He always leaves the key in the lock.”
Lemma = leave
-
Part-of-speech-Tagging (POS-Tagging): Ordnet jedem einzelnen Wort anhand seiner Wortart (engl.: part of speech) wie Substantiv, Adjektiv, Verb usw. eine grammatikalische Bezeichnung (Tag) zu. POS-Tagging ist eine wichtige Funktion bei NLP, da es Computern hilft, die Syntax eines Satzes zu verstehen.
-
Named Entity Recognition (NER) oder Eigennamenerkennung: Verwendet Algorithmen zur Identifizierung und Klassifizierung von benannten Entitäten wie Personen, Daten, Orte, Unternehmen usw. in Texten, um Aufgaben wie die Beantwortung von Fragen und die Extraktion von Informationen zu unterstützen.
Semantikanalyse
Das Parsing natürlicher Sprache mithilfe einiger oder aller der gerade beschriebenen Schritte ist ziemlich gut geeignet, um die Bedeutung von Text oder Sprache zu erfassen. Dieser Technik fehlen jedoch die Feinheiten, die die menschliche Sprache, nun ja, eben menschlich machen. Beim semantischen Parsing werden das grammatikalische Format von Sätzen und die Beziehungen zwischen Wörtern und Phrasen zur Ermittlung der Bedeutungsdarstellung analysiert. Informationen darüber, wie sich Menschen fühlen, warum sie interagieren und Details über die Umstände einer Interaktion spielen eine entscheidende Rolle bei der genauen Entschlüsselung von Text oder Sprache und der Formulierung einer passenden Antwort.
Im Folgenden stellen wir einige gängige Analysetechniken vor, die bei NLP verwendet werden. Jede dieser Techniken kann sich auf eine Reihe verschiedener Algorithmen stützen, um je nach der spezifischen Aufgabe und der Komplexität der Analyse das gewünschte Maß an Verständnis zu erhalten.
Stimmungsanalyse: Hier geht es darum festzustellen, ob ein Text (z. B. ein Satz, ein Post in sozialen Medien, eine Bewertung oder ein Tweet) eine positive, negative oder neutrale Stimmung ausdrückt. Eine Stimmung ist ein Gefühl oder eine Haltung gegenüber einer Sache. Mit der Stimmungsanalyse lässt sich beispielsweise feststellen, ob diese Kundenbewertung einer Dienstleistung positiv oder negativ ist: "I had to wait a very long time for my haircut.” Die Stimmungsanalyse hilft bei der Identifizierung und Klassifizierung von Emotionen oder Meinungen in Texten, damit Unternehmen verstehen können, wie Menschen über ihre Produkte, Services oder Erfahrungen denken.
Absichtsanalyse: Die Absichtsanalyse hilft uns zu verstehen, was jemand mit dem, was er sagt oder schreibt, erreichen möchte oder meint. Es geht darum, den Zweck oder die Intention der Worte herauszufinden. Wenn zum Beispiel jemand in einen Chatbot des Kundensupports eintippt "I can’t log in to my account", würde die Absichtsanalyse erkennen, dass die Person Unterstützung beim Zugriff auf ihren Account möchte. Der Chatbot könnte mit Details zum Zurücksetzen des Kennworts oder anderen Möglichkeiten antworten, mit denen der Benutzer versuchen kann, Zugriff auf seinen Account zu bekommen. Virtuelle Assistenten, Kundensupportsysteme oder Chatbots nutzen die Absichtsanalyse oftmals, um Benutzeranfragen zu verstehen und mit passenden Antworten oder Aktionen zu reagieren.
Kontext- oder Diskursanalyse: Natürliche Sprache hängt stark vom Kontext ab. Die Interpretation einer Aussage kann sich je nach Situation, den genannten Details und dem gemeinsamen Verständnis der kommunizierenden Personen ändern. Bei der Kontextanalyse geht es darum, diese Informationen über die Umstände zu verstehen, um einen Text sinnvoll zu interpretieren. Wenn zum Beispiel jemand sagt: "They had a ball", kann die Kontextanalyse feststellen, ob es sich um eine schicke Tanzparty, ein Sportgerät und jede Menge Spaß handelt. Dazu wird der bisherige Gesprächsverlauf oder das Gesprächsthema herangezogen. Die Kontextanalyse hilft NLP-Systemen, Wörter genauer zu interpretieren, indem sie den breiteren Kontext, die Beziehungen zwischen den Wörtern und andere relevante Informationen berücksichtigt.
Diese drei Analyseverfahren – Stimmungsanalyse, Absichtsanalyse und Kontextanalyse – spielen eine wichtige Rolle dabei, wertvolle Erkenntnisse aus Text- und Sprachdaten zu ziehen. Sie sorgen für ein differenziertes, genaueres Verständnis und Auswerten von Textinhalten in verschiedenen NLP-Anwendungen.
Zusammenfassung
In diesem Modul haben Sie einen groben Überblick über die Verarbeitung natürlicher Sprache erhalten, und zwar in Bezug auf die englische Sprache. Bis heute wird der Großteil der NLP-Studien in englischer Sprache durchgeführt, doch es gibt auch viele Forschungsarbeiten in Spanisch, Französisch, Farsi, Urdu, Chinesisch und Arabisch. NLP ist ein Bereich der KI, der sich rasant entwickelt. Die Fortschritte bei NLP führen schnell zu einem differenzierteren Sprachverständnis, sprachübergreifenden Fähigkeiten und der Integration mit anderen KI-Bereichen.