Más información sobre el análisis del lenguaje natural
Objetivos de aprendizaje
Después de completar esta unidad, podrá:
- Debatir acerca de los elementos básicos del lenguaje natural.
- Describir varias técnicas importantes utilizadas en el análisis del lenguaje natural.
- Explicar cómo contribuyen al PLN los análisis de opiniones, intención y contexto.
Elementos básicos del lenguaje natural
Comprender y procesar el lenguaje natural es un desafío esencial para las computadoras. Esto se debe a que no solo implica reconocer palabras individuales, sino también comprender sus relaciones, su contexto y su significado.
Nuestro lenguaje natural, tanto textual como oral, se caracteriza por su infinita complejidad, sus matices, su ambigüedad y sus errores. En nuestra comunicación diaria, nos encontramos con palabras con varios significados, palabras que suenan igual pero se escriben distinto y tienen significados diferentes, modificadores mal colocados, así como errores ortográficos y de pronunciación. También nos encontramos con personas que hablan rápido, murmuran o tardan una eternidad en ir al grano; y con personas que utilizan patrones de voz con acentos o dialectos diferentes a los nuestros.
Tomemos esta frase como ejemplo:
“We saw six bison on vacation in Yellowstone National Park” (Vimos seis bisontes de vacaciones en el Parque Nacional de Yellowstone).
Puede causarnos gracia si nos imaginarnos a seis bisontes con sombrero y gafas de sol posando para hacerse selfies delante de Old Faithful. Pero lo más probable es que entendamos lo que ocurrió en realidad, es decir, que alguien que estaba de vacaciones en el Parque Nacional de Yellowstone vio seis bisontes.
O lo siguiente:
“They swam out to the buoy” (“Nadaron hasta la boya”).
Si oímos a alguien pronunciar esta frase en inglés sin ningún contexto, podemos interpretar que las personas implicadas nadaron hacia un niño varón, cuando en realidad nadaron hacia un marcador en el agua. La pronunciación de “boy” (“niño” en inglés) y “buoy” es casi igual, pero la enunciación no siempre queda clara.
Si bien los humanos somos capaces de flexibilizar y adaptarnos al lenguaje con bastante facilidad, entrenar a una computadora para que tenga en cuenta este tipo de matices es bastante difícil.
Los elementos del lenguaje natural en inglés incluyen:
-
Vocabulario: palabras que se usan
-
Gramática: reglas que rigen la estructura de una oración
-
Sintaxis: modo en que se combinan las palabras para formar oraciones de acuerdo con la gramática
-
Semántica: significado de palabras, frases y oraciones
-
Pragmática: contexto e intención del uso cultural o geográfico de la lengua
-
Discurso y diálogo: unidades mayores que una sola frase u oración, incluidos documentos y pláticas
-
Fonética y fonología: sonidos que emitimos al comunicarnos
-
Morfología: modo en que las palabras pueden combinarse o descombinarse para formar palabras nuevas
Análisis del lenguaje natural
Enseñar a una computadora a leer y a deducir el significado de las palabras es un poco como enseñar a leer a un niño: ambos aprenden a reconocer las palabras, sus sonidos, su significado y su pronunciación. Ahora bien, cuando un niño aprende a leer suele tener la ventaja del contexto de una historia, las indicaciones visuales de las ilustraciones y las relaciones con cosas que ya conoce, como los árboles o los animales. También suelen recibir ayuda y estímulo de lectores experimentados, que los ayudan a explicar lo que están aprendiendo. Estas pistas ayudan a los nuevos lectores a identificar y atribuir significado a palabras y frases que pueden generalizar a otras cosas que lean en el futuro.
Sabemos que las computadoras son un tipo diferente de inteligencia, por lo que, aunque necesita comprender los elementos del lenguaje natural descritos anteriormente, el enfoque tiene que ser mucho más científico. El PLN utiliza algoritmos y métodos, como modelos de lenguaje grande (LLM), modelos estadísticos, aprendizaje automático, aprendizaje profundo y sistemas basados en reglas, para procesar y analizar texto. Estas técnicas, conocidas como análisis, consisten en dividir el texto o la voz en partes más pequeñas para clasificarlas con fines de PLN. El análisis incluye el análisis sintáctico, en el que se analizan los elementos del lenguaje natural para identificar la estructura gramatical subyacente, y el análisis semántico, que deriva el significado.
Como se mencionó en la última unidad, el lenguaje natural se analiza de distintas formas para obtener los resultados deseados. Por ejemplo, el lenguaje natural que se analiza para una aplicación de traducción utiliza algoritmos o modelos diferentes y se analiza de forma distinta al lenguaje natural destinado a un asistente virtual como Alexa.
El análisis sintáctico puede incluir las siguientes tareas:
-
Segmentación: los textos más extensos se dividen en segmentos más pequeños y significativos. La segmentación suele producirse al final de las oraciones, en los signos de puntuación, para ayudar a organizar el texto para su posterior análisis.
-
Tokenización: las oraciones se dividen en palabras individuales, que se denominan tokens. En el inglés, la tokenización es una tarea bastante sencilla porque las palabras suelen estar separadas por espacios. En idiomas como el tailandés o el chino, la tokenización es mucho más complicada y depende en gran medida de la comprensión del vocabulario y de la morfología para tokenizar el idioma con precisión.
-
Stemming: las palabras se reducen a su raíz o stem. Por ejemplo, breaking, breaks y unbreakable se reducen todas a la raíz break. El stemming ayuda a reducir las variaciones de las formas de las palabras, pero, según el contexto, puede no conducir a la raíz más precisa. Observemos los dos siguientes ejemplos en los que se usa el stemming:
“I’m going outside to rake leaves” (Voy afuera a rastrillar las hojas).
Raíz = leave
“He always leaves the key in the lock” (Siempre deja la llave en la cerradura).
Raíz = leave
-
Lematización: al igual que el stemming, la lematización reduce las palabras a su raíz, pero tiene en cuenta su función gramatical en la oración para llegar a una palabra raíz mucho más válida, llamada lema. A continuación se presentan los dos mismos ejemplos usando la lematización:
“I’m going outside to rake leaves”.
Lema = leaf
“He always leaves the key in the lock” (Siempre deja la llave en la cerradura).
Lema = leave
-
Etiquetado gramatical asigna etiquetas gramaticales a cada palabra de acuerdo con la función que cumple en la oración, es decir, sustantivo, adjetivo, verbo, etc. El etiquetado gramatical es una función importante del PLN porque ayuda a que las computadoras entiendan la sintaxis de una oración.
-
Reconocimiento de entidades nombradas (NER): utiliza algoritmos para identificar y clasificar entidades nombradas, por ejemplo, personas, fechas, lugares, organizaciones, etc., en el texto con el fin de ayudar en ciertas tareas, como responder preguntas y extraer información.
Análisis semántico
El análisis del lenguaje natural mediante algunos o todos los pasos que acabamos de describir permite captar bastante bien el significado del texto o de la comunicación. Sin embargo, carece de los sutiles matices que hacen que el lenguaje humano sea justamente humano. El análisis semántico consiste en analizar el formato gramatical de las oraciones y las relaciones entre palabras y frases para encontrar la representación del significado. Saber cómo se sienten las personas, por qué se involucran y conocer las circunstancias que rodean a una interacción es crucial para descifrar con precisión un texto o un discurso y dar una respuesta adecuada.
A continuación se presentan varias técnicas comunes de análisis en el PLN. Cada una de estas técnicas puede estar impulsada por varios algoritmos diferentes para obtener el nivel de comprensión deseado en función de la tarea específica y la complejidad del análisis.
Análisis de opiniones: consiste en determinar si un fragmento de texto (como una oración, una publicación en redes sociales, una reseña o un tuit) expresa un sentimiento positivo, negativo o neutral. Un sentimiento es una emoción o actitud hacia algo. Por ejemplo, este tipo de análisis puede determinar si la opinión de un cliente sobre un servicio es positiva o negativa: “Tuve que esperar mucho tiempo para que me cortaran el pelo”. El sentimiento ayuda a identificar y clasificar las emociones o las opiniones en el texto para ayudar a las empresas a comprender cómo se sienten las personas con respecto a sus productos, servicios o experiencias.
Análisis de intención: la intención nos ayuda a entender lo que alguien desea o quiere decir según lo que dice o escribe. Es como descifrar el propósito o la intención que hay detrás de sus palabras. Por ejemplo, si alguien escribe “No puedo iniciar sesión en mi cuenta” en un chatbot de atención al cliente, el análisis de intención reconocería que la persona busca obtener ayuda para acceder a su cuenta. El chatbot puede responder con detalles sobre cómo restablecer una contraseña u otros medios que el usuario puede utilizar para acceder a su cuenta. Los asistentes virtuales, los sistemas de atención al cliente o los chatbots suelen utilizar el análisis de intención para comprender las solicitudes de los usuarios y ofrecer respuestas o acciones adecuadas.
Análisis del contexto (discurso): el lenguaje natural se basa en gran medida en el contexto. La interpretación de un enunciado puede cambiar en función de la situación, los detalles aportados y cualquier entendimiento compartido que exista entre las personas que se comunican. El análisis del contexto consiste en comprender la información circundante para dar sentido a un texto. Por ejemplo, si alguien dice en inglés: “They had a ball” (“La pasaron genial”), el análisis del contexto puede determinar si se refiere a una fiesta de disfraces, a un elemento deportivo o a divertirse mucho (según los distintos significados de la palabra “ball”). Para ello, se tiene en cuenta la plática anterior o el tema que se está tratando. El análisis del contexto ayuda a los sistemas de PLN a interpretar las palabras con mayor precisión teniendo en cuenta el contexto más amplio, las relaciones entre las palabras y otra información relevante.
Estas tres técnicas de análisis (análisis de opiniones, intención y contexto) desempeñan un papel importante a la hora de extraer información valiosa de los datos de texto y voz. Crean una comprensión y una implicación más sofisticadas y precisas con el contenido textual en diversas aplicaciones del PLN.
Resumen
En este módulo, ha aprendido en detalle acerca del PLN según cómo se relaciona con el idioma inglés. Hasta la fecha, la mayoría de los estudios sobre PLN se realizan en inglés, pero también se pueden encontrar muchas investigaciones en español, francés, farsi, urdu, chino y árabe. El PLN es un campo de la IA que evoluciona muy rápidamente. Los avances en PLN permiten lograr con rapidez una comprensión más sofisticada del lenguaje, las capacidades multilingües y la integración con otros campos de la IA.