Skip to main content
Die Dreamforce findet vom 17. bis 19. September in San Francisco statt. Registrieren Sie sich jetzt und sparen Sie 20 % mit dem Code DF24TRAIL20

Grundlegendes zur Verarbeitung natürlicher Sprache

Lernziele

Nachdem Sie diese Lektion abgeschlossen haben, sind Sie in der Lage, die folgenden Aufgaben auszuführen:

  • Beschreiben der Verarbeitung natürlicher Sprache
  • Erläutern, wie die Verarbeitung natürlicher Sprache im Alltag genutzt wird
  • Erklären, wie sich die Verarbeitung natürlicher Sprache seit den 1950er Jahren entwickelt hat
  • Unterscheiden zwischen der Verarbeitung natürlicher Sprache (Natural Language Processing, NLP), dem Verstehen natürlicher Sprache (Natural Language Understanding, NLU) und dem Generieren natürlicher Sprache (Natural Language Generation, NLG).

Bevor Sie beginnen

In diesem Badge kommen Begriffe wie neuronale Netze und Deep Learning vor, die in den Badges Künstliche Intelligenz – Grundlagen und Generative KI – Grundlagen ausführlich behandelt werden. Es empfiehlt sich, diese Badges zuerst zu absolvieren.

Was ist die Verarbeitung natürlicher Sprache (NLP)?

Die Verarbeitung natürlicher Sprache (engl. Natural Language Processing, NLP) ist ein Bereich der künstlichen Intelligenz (KI), der Informatik und Linguistik kombiniert, um Computer in die Lage zu versetzen, menschliche Sprache so zu verstehen, zu interpretieren und zu generieren, dass sie für den Menschen sinnvoll und nützlich ist.

NLP hilft Computern, nützliche Aufgaben durchzuführen, beispielsweise die Bedeutung von Sätzen zu verstehen, wichtige Details in Texten zu erkennen, Sprachen zu übersetzen, Fragen zu beantworten, Texte zusammenzufassen und Antworten zu generieren, die menschlichen Antworten ähneln.

NLP ist in unserem Alltag bereits so normal, dass wir meist nicht einmal darüber nachdenken, wenn wir damit interagieren oder die KI eine Aufgabe für uns erledigt. Zum Beispiel schlägt Ihre E-Mail- oder Dokumentenerstellungs-Anwendung vielleicht automatisch ein Wort oder einen Satz vor, den Sie als nächstes verwenden könnten. Vielleicht bitten Sie einen virtuellen Assistenten wie Siri, Sie daran zu erinnern, am Dienstag Ihre Pflanzen zu gießen. Oder Sie bitten Alexa, Ihnen für das Wissenschaftsprojekt Ihrer Tochter Einzelheiten über das letzte große Erdbeben in Chile zu erzählen.

Die Chatbots, mit denen Sie in Kontakt treten, wenn Sie sich an den Kundendienst eines Unternehmens wenden, nutzen NLP, ebenso wie die Übersetzungsanwendung, die Sie im Ausland einsetzen, um ihr Abendessen zu bestellen. Spam-Erkennung, Ihre bevorzugten Online-Nachrichtendienste und vieles mehr basieren ebenfalls auf NLP.

Eine sehr kurze Geschichte der Verarbeitung natürlicher Sprache

Wir sollten hier erwähnen, dass NLP nicht neu ist. Tatsächlich reichen seine Wurzeln bis in die 1950er Jahre zurück, als Wissenschaftler begannen, Computer zum Verstehen und Erzeugen menschlicher Sprache einzusetzen. Einer der ersten bemerkenswerten Beiträge zu NLP war der Turing-Test. Dieser von Alan Turing entwickelte Test misst die Fähigkeit einer Maschine, eine beliebige Frage so zu beantworten, dass sie von der Antwort eines Menschen nicht zu unterscheiden ist. Kurze Zeit später wurden die ersten maschinellen Übersetzungssysteme entwickelt. Dabei handelte es sich um satz- und phrasenbasierte Sprachübersetzungsexperimente, die bald wieder aufgegeben wurden, da sie auf sehr spezifischen Sprachmustern, wie vordefinierten Phrasen oder Sätzen, basierten.

Ein Großrechner im Stil der 1950er Jahre, der von einem Informatiker bedient wird

In den 1960er Jahren experimentierten Wissenschaftler mit regelbasierten Systemen, die dem Benutzer ermöglichten, den Computer zu bitten, Aufgaben auszuführen oder Gespräche zu führen.

In den 1970er und 1980er Jahren wurden anspruchsvollere wissensbasierte Ansätze entwickelt, die linguistische Regeln, regelbasierte Logik und Fachwissen für Aufgaben wie die Ausführung von Befehlen und die Diagnose von Krankheiten nutzten.

Statistische NLP-Ansätze (d. h. Lernen aus Daten) waren in den 1990er und frühen 2000er Jahren verbreitet und führten zu Fortschritten bei der Spracherkennung, der maschinellen Übersetzung und Maschinenalgorithmen. In dieser Zeit standen durch die Einführung des World Wide Web im Jahr 1993 riesige Mengen an textbasierten Daten für die NLP-Forschung zur Verfügung.

Ein Stapel Bücher und Dokumente

Seit ca. 2009 wird die Forschung und Weiterentwicklung von NLP von neuronalen Netzen und Deep Learning bestimmt. Die NLP-Bereiche Übersetzung und Generierung natürlicher Sprache, einschließlich des kürzlich eingeführten ChatGPT, haben sich enorm verbessert und entwickeln sich rasant weiter.

Hinweis

Hinweis: 

Weitere Informationen zu diesen und anderen NLP-Fortschritten finden Sie im Abschnitt "Ressourcen".

Menschliche Sprache ist "natürliche" Sprache

Was ist natürliche Sprache überhaupt? Unter natürlicher Sprache versteht man die Art und Weise, wie Menschen miteinander kommunizieren, indem sie Wörter und Sätze verwenden. Es ist die Sprache, die wir in Gesprächen verwenden und wenn wir lesen, schreiben oder zuhören. Natürliche Sprache ist die Art und Weise, wie wir Informationen übermitteln, Ideen ausdrücken, Fragen stellen, Geschichten erzählen und uns miteinander unterhalten. NLP-Modelle werden zwar für viele verschiedene menschliche Sprachen entwickelt, doch in diesem Modul liegt der Schwerpunkt auf NLP in Englisch.

Wenn Sie den Badge Künstliche Intelligenz – Grundlagen abgeschlossen haben, haben Sie schon von unstrukturierten und strukturierten Daten gehört. Diese Begriffe sind auch bei NLP wichtig. Natürliche Sprache, also die Art und Weise, wie wir tatsächlich sprechen, zählt zu unstrukturierten Daten. Das bedeutet, dass wir Menschen zwar in der Regel eine Bedeutung daraus ableiten können, einem Computer aber nicht die richtigen Details zur Verfügung stehen, um die Daten sinnvoll auszuwerten. Der folgende Absatz über einen Hund im Tierheim, der ein neues Zuhause sucht, ist ein Beispiel für unstrukturierte Daten.

Tala ist eine 5-jährige, sterilisierte, knapp 30 Kilogramm schwere Huskyhündin, die gerne im Park spielt und lange Spaziergänge unternimmt. Sie ist kinderlieb und verträgt sich mit Katzen. Das blauäugige Schätzchen hat langes, grau-weißes Fell, das regelmäßig gebürstet werden muss. Sie können Tala im Tierheim Troutdale kennenlernen. Vereinbaren Sie einfach telefonisch einen Termin.

Damit ein Computer die Bedeutung verstehen kann, müssen diese Informationen klar definiert und organisiert sein, ähnlich wie in einer Tabelle oder einer Datenbank. Dies bezeichnet man dann als strukturierte Daten. Welche Informationen in strukturierten Daten enthalten sind und wie die Daten formatiert werden, wird letztendlich von Algorithmen bestimmt, die von der gewünschten Endanwendung verwendet werden. So sind beispielsweise Daten für eine Übersetzungsanwendung anders strukturiert als Daten für einen Chatbot. Die Daten aus dem obigen Absatz könnten als strukturierte Daten wie folgt aussehen, um für eine Anwendung verwendet zu werden, mit der eventuell ein passendes neues Zuhause für Hunde gefunden werden könnte.

  • Name: Tala
  • Alter: 5
  • Kastriert oder sterilisiert: Sterilisiert
  • Geschlecht: Weiblich
  • Rasse: Husky
  • Gewicht: 30 kg
  • Fellfarbe: Grau-weiß
  • Augenfarbe: Blau
  • Kinderlieb: Ja
  • Verträgt sich mit Katzen: Ja
  • Lieblingsbeschäftigungen: Park, Spaziergänge
  • Standort: Troutdale

Das Verstehen natürlicher Sprache (NLU) und das Generieren natürlicher Sprache (NLG)

Das heutige NLP gliedert sich in die Unterbereiche Verstehen natürlicher Sprache (NLU) und Generieren natürlicher Sprache (NLG). Wenn Daten aus einem unstrukturierten in einen strukturierten Zustand umgewandelt werden, ist die Rede vom Verstehen natürlicher Sprache (NLU). NLU verwendet viele Techniken, um geschriebene oder gesprochene Sprache zu interpretieren und die Bedeutung und den Kontext dahinter zu verstehen. Mit diesen Techniken befassen wir uns in der nächsten Einheit.

Wenn Daten in umgekehrter Richtung verarbeitet werden, also von strukturiert zu unstrukturiert, wird dies als Generieren natürlicher Sprache (NLG) bezeichnet. NLG ist der NLP-Bereich, der es Computern ermöglicht, menschenähnliche Sprache zu erzeugen. NLG beinhaltet die Entwicklung von Algorithmen und Modellen, die strukturierte Daten oder Informationen in sinnvollen, kontextgerechten, natürlich wirkenden Text oder Sprache umwandeln. Dazu gehört auch das Generieren von Code in einer Programmiersprache, z. B. das Generieren einer Python-Funktion zum Sortieren von Zeichenketten.

In der Vergangenheit wurden für NLU- und NLG-Aufgaben explizite, linguistisch strukturierte Darstellungen wie Parse-Bäume verwendet. NLU und NLG sind zwar auch heute noch wichtig für NLP, doch bei den meisten Anwendungen, Tools und virtuellen Assistenten, mit denen wir kommunizieren, ist die Entwicklung so, dass sie Deep Learning oder neuronale Netzwerke nutzen, um Aufgaben von Anfang bis Ende auszuführen. Ein neuronales maschinelles Übersetzungssystem kann beispielsweise einen Satz aus dem Chinesischen direkt ins Englische übersetzen, ohne explizit irgendeine Art von Zwischenstruktur zu erstellen. Neuronale Netze erkennen Muster, Wörter und Phrasen, um die Sprachverarbeitung exponentiell schneller und kontextbezogener zu machen.

In der nächsten Lektion erfahren Sie mehr über unsere natürliche Sprache sowie Methoden und Techniken, mit denen Computer unsere Sprache verstehen und entsprechend antworten können.

Ressourcen