Conocer los tipos de análisis del lenguaje natural
Objetivos de aprendizaje
Después de completar esta unidad, podrá:
- Hablar sobre los elementos básicos del lenguaje natural.
- Describir varias técnicas importantes utilizadas para analizar el lenguaje natural.
- Explicar cómo contribuye el análisis de opiniones, intenciones y contexto al procesamiento de lenguaje natural.
Elementos básicos del lenguaje natural
La comprensión y el procesamiento del lenguaje natural supone un desafío fundamental para los ordenadores. Esto se debe a que implica no solo reconocer palabras independientes, sino también comprender sus relaciones, su contexto y su significado.
Nuestro lenguaje natural, tanto escrito como hablado, se caracteriza por contener un sin fin de matices, complejidad, ambigüedad y errores. En nuestra comunicación diaria, nos encontramos con palabras que tienen varios significados: palabras que suenan igual pero se escriben de forma diferente y no significan lo mismo, modificadores mal colocados, faltas de ortografía y pronunciaciones incorrectas. También nos encontramos con personas que hablan rápido, balbucean o que se toman todo el tiempo del mundo para ir al grano. También hay personas que utilizan patrones de habla en acentos o dialectos diferentes a los nuestros.
Tomemos esta frase como ejemplo:
“We saw six bison on vacation in Yellowstone National Park.”
Puede que le entre una risilla nerviosa al imaginarse a seis bisontes con sombreros y gafas de sol posando mientras se hacen fotos en medio de Old Faithful. Sin embargo, muy probablemente comprenderá lo que ocurre realmente: alguien que estaba de vacaciones en el Parque Nacional Yellowstone vio seis bisontes.
O esta otra:
“They swam out to the buoy.”
Si escuchara esta frase sin ningún contexto, podría pensar que las personas involucradas nadaron hasta un niño, pero, en realidad, nadaron hasta una marca en el agua. La pronunciación de "boy" y "buoy" es algo distinta, pero la vocalización no ayuda demasiado.
Mientras que los humanos somos capaces de adaptarnos al lenguaje con facilidad, entrenar a un ordenador para que tenga en cuenta este tipo de matices resulta bastante difícil.
Entre los elementos del lenguaje natural de la lengua inglesa se encuentran los siguientes:
-
Vocabulario: las palabras que utilizamos
-
Gramática: las reglas que gobiernan la estructura de las oraciones
-
Sintaxis: la manera en la que se combinan las palabras para formar oraciones según la gramática
-
Semántica: el significado de las palabras, las frases y las oraciones
-
Pragmática: el contexto y la intención detrás de cada uso cultural o geográfico del lenguaje
-
Discurso y diálogo: unidades más largas que una sola frase u ración, incluyendo documentos y conversaciones
-
Fonética y fonología: el sonido que realizamos al comunicarnos
-
Morfología: cómo pueden combinarse, o no, las partes de las palabras para formar otras nuevas
Analizar el lenguaje natural
Enseñar a un ordenador a leer y a obtener el significado de las palabras es parecido al hecho de enseñar a leer a un niño: ambos aprenden a reconocer las palabras, sus sonidos, los significados y la pronunciación. Sin embargo, una vez que un niño aprende a leer, normalmente cuentan con la ventaja de disponer del contexto de una historia, pistas visuales que obtienen de las ilustraciones y relaciones a elementos que ya conocen, como árboles o animales. También suelen obtener ayuda y recibir ánimos por parte de lectores ya experimentados, que ayudan a explicar lo que están aprendiendo. Estas pistas ayudan a los nuevos lectores a identificar y adjuntar significados a las palabras y frases que pueden generalizar a otros elementos que leerán en el futuro.
Sabemos que los ordenadores son un tipo diferente de inteligencia; por ello, dado que un ordenador necesita comprender los elementos del lenguaje natural descritos anteriormente, el enfoque debe ser mucho más científico. El procesamiento de lenguaje natural utiliza algoritmos y métodos como modelos de lenguaje grandes (LLM), modelos estadísticos, aprendizaje automático, aprendizaje profundo y sistemas basados en reglas con el fin de procesar y analizar textos. Estas técnicas, llamadas análisis, implican desglosar los textos o los discursos en partes más pequeñas con el fin de clasificarlos para el procesamiento de lenguaje natural. El análisis incluye un análisis sintáctico, en el que los elementos del lenguaje natural se analizan para identificar la estructura gramatical subyacente, y un análisis semántico, que extrae el significado.
Tal y como se mencionó en la última unidad, el lenguaje natural se analiza de diferentes formas para coincidir con los resultados esperados. Por ejemplo, el lenguaje natural que se analiza para una aplicación de traducción utiliza algoritmos o modelos diferentes y se analiza de una forma distinta a la del lenguaje natural destinado a un asistente virtual, como Alexa.
Es posible que el análisis sintáctico incluya lo siguiente:
-
Segmentación: Textos largos divididos en partes más cortas que tengan sentido. Normalmente, la segmentación se realiza al final de cada oración, teniendo en cuenta los signos de puntuación, con el fin de ayudar a organizar el texto para análisis futuros.
-
Conversión en tokens: Las oraciones se dividen por palabras independientes denominadas tokens. En la lengua inglesa, la conversión en tokens resulta bastante clara, puesto que las palabras se dividen por espacios. En otros idiomas, como el tailandés o el chino, esta conversión resulta más complicada y se basa en gran medida en una comprensión del vocabulario y la morfología para convertir el lenguaje en tokens de manera precisa.
-
Derivación: Las palabras se reducen a la raíz. Por ejemplo breaking, breaks o unbreakable se reducen a break. La derivación ayuda a reducir las variaciones de las formas de palabas pero, según el contexto, es posible que no conduzca a la raíz más precisa. Mire estos dos ejemplos que utilizan derivación:
“I’m going outside to rake leaves.”
Raíz = leave
“He always leaves the key in the lock”.
Raíz = leave
-
Lematización: Es algo similar a la derivación, un proceso que reduce las palabras a su raíz, pero tiene en cuenta la parte del discurso para llegar a una palabra con una raíz más válida, o lema. Aquí tiene otros dos ejemplos de lematización:
“I’m going outside to rake leaves.”
Lema = leaf
“He always leaves the key in the lock”.
Lema = leave
-
Etiquetado de las partes del discurso: Asigna etiquetas gramaticales a cada palabra según su parte en el discurso, es decir, si se trata de un nombre, un adjetivo, un verbo, etc. El etiquetado de las partes del discurso es una función importante en el procesamiento de lenguaje natural, ya que ayuda a los ordenadores a comprender la sintaxis de la oración.
-
Reconocimiento de entidades nombradas (NER): Utiliza algoritmos para identificar y clasificar entidades nombradas (como personas, fechas, lugares, organizaciones, etc.) en el texto con el fin de ayudar con las tareas tales como responder a preguntas o extraer información.
Análisis semántico
Analizar el lenguaje natural utilizando algunos o todos los pasos que acabamos de describir es una muy buena labor para captar el significado del texto o el discurso. Sin embargo, carecen de ciertas habilidades interpersonales que hacen que el lenguaje humano sea humano. El análisis semántico implica analizar el formato gramatical de las oraciones y relaciones entre palabras y frases con el fin de encontrar la representación del significado. El saber cómo se sienten las personas, el motivo por el que interactúan y los detalles de las circunstancias que rodean la interacción juegan un papel importante a la hora de descifrar de forma precisa el texto o el discurso y formar una respuesta apropiada.
A continuación se detallan varias técnicas de análisis comunes utilizadas en el procesamiento de lenguaje natural. Cada una de estas técnicas se pueden potenciar por un número de algoritmos diferentes para conseguir el nivel deseado de comprensión según una tarea específica y la complejidad el análisis.
Análisis de opiniones: Implica la determinación de si un texto (una oración, una publicación en redes sociales, una reseña o un tuit) expresa una opinión positiva, negativa o neutra. Una opinión es un sentimiento o una actitud hacia algo. Por ejemplo, el análisis de opiniones puede determinar si esta reseña de un cliente sobre un servicio es positiva o negativa: "Tuve que esperar mucho tiempo para que me cortaran el pelo". La opinión ayuda a identificar y clasificar las emociones o sentimientos con el fin de ayudar a los negocios a comprender cómo se sienten las personas con respecto a sus productos, servicios o experiencias.
Análisis de intenciones: La intención ayuda a comprender lo que alguien quiere o tiene la intención de hacer según lo que dice o escribe. Consiste en descifrar el propósito o la intención detrás de las palabras. Por ejemplo, si alguien escribe "No puedo iniciar sesión en mi cuenta" en un bot de chat del servicio de atención al cliente, el análisis de intenciones reconocería que la persona quiere recibir ayuda con el fin de poder acceder a su cuenta. Es posible que el bot de chat responda con detalles sobre cómo restablecer la contraseña u otras opciones que el usuario podría probar a utilizar para acceder a su cuenta. Normalmente, los asistentes virtuales, los sistemas de atención al cliente o los bots de chat utilizan el análisis de intenciones para comprender las solicitudes de los usuarios y proporcionar respuestas o acciones apropiadas.
Análisis de contexto (discurso): El lenguaje natural se basa en el contexto considerablemente. La interpretación de una declaración puede cambiar según la situación, los detalles proporcionados y cualquier conocimiento compartido que exista entre las personas que se están comunicando. El análisis del contexto implica la comprensión de la información que rodea al texto para que este cobre sentido. Por ejemplo, si alguien dice "tenían una pelota", el análisis del contexto puede determinar si se está hablando de un baile, de algún equipamiento deportivo o de una experiencia divertida. Esto lo hace teniendo en cuenta la conversación anterior o el tema que del que se está hablando. El análisis del contexto ayuda a los sistemas de procesamiento de lenguaje natural a interpretar las palabras de manera más precisa teniendo en cuenta el contexto más amplio, las relaciones entre las palabras y otra información relevante.
Estas tres técnicas de análisis (de opiniones, de intenciones y de contexto) juegan un papel importante a la hora de extraer información importante de los datos del texto y del discurso. Crean un entendimiento y un compromiso más sofisticados y precisos con contenido textual en varias aplicaciones de procesamiento de lenguaje natural.
Resumen
En este módulo, ha aprendido sobre el procesamiento de lenguaje natural a un nivel muy alto y cómo se relaciona con la lengua inglesa. Hasta ahora, la mayoría de los estudios del procesamiento de lenguaje natural se han llevado a cabo en inglés, pero también puede encontrar investigaciones realizadas en español, francés, farsi, urdu, chino y árabe. El procesamiento de lenguaje natural es un campo de la IA que evoluciona muy rápidamente. Los avances en el procesamiento de lenguaje natural llevan rápidamente a un entendimiento del lenguaje más sofisticado, capacidades en varios idiomas y a la integración con otros campos de la IA.