Skip to main content
Dreamforce llega a San Francisco del 17 a 19 de septiembre. Regístrese ahora y ahorre un 20 % con el código DF24TRAIL20.

Introducción al procesamiento de lenguaje natural

Objetivos de aprendizaje

Después de completar esta unidad, podrá:

  • Describir el procesamiento del lenguaje natural.
  • Hablar sobre los usos cotidianos del procesamiento de lenguaje natural.
  • Explicar cómo ha evolucionado desde los años 50.
  • Diferenciar entre el procesamiento, la comprensión y la generación de lenguaje natural.

Antes de empezar

Esta insignia contiene términos como redes neuronales y aprendizaje profundo, que se describen con más detalle en las insignias Aspectos fundamentales de la inteligencia artificial y Aspectos básicos sobre la IA generativa Es recomendable que consiga esas insignias primero.

¿Qué es el procesamiento de lenguaje natural?

El procesamiento de lenguaje natural (PLN), es un campo de inteligencia artificial (IA) que combina la informática y la lingüística con el fin de que los ordenadores tengan la capacidad de comprender, interpretar y generar el lenguaje humano de una manera significativa y útil para las personas.

El procesamiento de lenguaje natural ayuda a que los ordenadores realicen tareas útiles, como la comprensión de oraciones, el reconocimiento de detalles importantes de un texto, la traducción de idiomas, la respuesta a preguntas, los resúmenes de textos y la generación de respuestas que se parezcan a las respuestas humanas.

El procesamiento de lenguaje natural es tan común en nuestra vida diaria que ni siquiera pensamos en ello cuando interactuamos con él o hace algo por nosotros. Por ejemplo, es posible que su correo electrónico o su aplicación de creación de documentos sugiera una palabra o frase que puede utilizar. Es posible que le pida a un asistente virtual, como Siri, que le recuerde regar las plantas los martes. O incluso puede pedirle a Alexa que le dé detalles sobre el último terremoto en Chile para el proyecto de ciencias de su hija.

Los bots de chat con los que interacciona cuando se pone en contacto con el servicio de atención al cliente de una empresa utilizan el procesamiento de lenguaje natural, al igual que lo hace la aplicación de traducción que utiliza para ayudarle a realizar un pedido de una comida en un país diferente. La detección de spam, sus preferencias de noticias en línea, etc. cuentan con el procesamiento de lenguaje natural.

Breve historia sobre el procesamiento de lenguaje natural

Cabe destacar que el procesamiento de lenguaje natural no es algo nuevo. De hecho, tiene sus raíces en los años 50, cuando los investigadores comenzaron a utilizar los ordenadores para comprender y generar el lenguaje humano. Una de las primeras contribuciones importantes del procesamiento de lenguaje natural fue la prueba de Turing. Esta prueba, desarrollada por Alan Turing, mide la capacidad de una máquina para responder a preguntas de manera idéntica a como lo hacen los humanos. Poco después, se desarrollaron los sistemas de traducción asistida. Estos eran experimentos de traducción basados en frases y oraciones que no progresaron mucho, puesto que dependían de patrones de lenguaje muy específicos, como frases u oraciones predefinidas.

Un informático utilizando un ordenador central de los años 50.

En los años 60, los investigadores experimentaban con sistemas basados en reglas que permitían que los usuarios pidieran a los ordenadores que completaran tareas o mantuvieran conversaciones.

En las décadas de los 70 y los 80 presenciamos enfoques más sofisticados basados en conocimientos utilizando reglas lingüísticas, razonamiento basado en reglas y conocimiento de dominios para tareas como la ejecución de comandos y el diagnóstico de dolencias.

Los enfoques estadísticos (como el aprendizaje de datos) del procesamiento de lenguaje natural eran populares en los años 90 y a principios de los 2000. Esto condujo a la obtención de avances en el reconocimiento de voz, los sistemas de traducción asistida y los algoritmos de aprendizaje automático. Durante este periodo, la introducción de la World Wide Web en 1993 hizo que grandes cantidades de datos basados en texto estuvieran disponibles para las investigaciones del procesamiento de lenguaje natural.

Una pila de papeles y libros.

Desde aproximadamente 2009, las redes neuronales y el aprendizaje profundo han dominado la investigación y el desarrollo del procesamiento de lenguaje natural. Las áreas de traducción y de generación de lenguaje natural del procesamiento de lenguaje natural, entre las que se incluye el reciente ChatGPT, han mejorado bastante y continúan haciéndolo rápidamente.

Nota

Nota: 

Para obtener más información sobre estos avances del procesamiento de lenguaje natural y otros, consulte la sección Recursos.

El lenguaje humano es lenguaje "natural"

¿Qué es el lenguaje natural? El lenguaje natural hace referencia a la manera en la que las personas se comunican utilizando palabras y oraciones. Es el lenguaje que utilizamos en las conversaciones, cuando leemos, escribimos o escuchamos. El lenguaje natural es la manera en la que transmitimos información, expresamos ideas, hacemos preguntas, contamos historias e interactuamos con otros. Mientras que los modelos de procesamiento de lenguaje natural se están desarrollando para muchos tipos diferentes de lenguaje humano, este módulo se centra en el procesamiento de lenguaje natural de la lengua española.

Si ha completado la insignia Aspectos fundamentales de la inteligencia artificial, ya conoce los datos estructurados y no estructurados. Estos también son términos importantes en el procesamiento de lenguaje natural. El lenguaje natural (la forma en la que hablamos), es una forma de datos no estructurados, lo que significa que, mientras que las personas pueden extraer significado de él, este no proporciona los tipos de detalles adecuados a un ordenador para que cobre sentido. El siguiente párrafo sobre un perro en acogida es un ejemplo de datos no estructurados.

Tala es una husky esterilizada de 5 años y unos 30 kg a la que le encanta jugar en el parque y dar largas caminatas. Es muy buena con los niños y se lleva genial con los gatos. Este encanto de ojos azules tiene un pelo largo gris y blanco que necesita que lo cepillen con frecuencia. Si quiere programar una cita para conocer a Tala, llame al refugio Troutdale.

Para que un ordenador comprenda lo que se quiere expresar con este texto, es necesario definir bien y organizar la información, de manera parecida a lo que encontraría en una hoja o en una base de datos. A esto lo llamamos datos estructurados. La información incluida en los datos estructurados y la manera en la que los datos están recogidos está determinada por algoritmos utilizados en la aplicación final deseada. Por ejemplo, los datos para una aplicación de traducción se estructuran de manera diferentes a los datos de un bot de chat. Así es el aspecto que deberían tener los datos del párrafo anterior si fuesen datos estructurados para que una aplicación pueda ayudar a emparejar a los perros con sus posibles familias adoptivas.

  • Nombre: Tala
  • Edad: 5
  • Esterilizada o castrada: esterilizada
  • Sexo: hembra
  • Raza: husky
  • Peso: 30 kg
  • Color: gris y blanco
  • Color de ojos: azul
  • Buena con los niños: sí
  • Buena con los gatos: sí
  • Actividades favoritas: parques, caminatas
  • Ubicación: Troutdale

Comprensión y generación de lenguaje natural

El procesamiento de lenguaje natural actual se ha desarrollado junto con sus dos campos secundarios: la comprensión de lenguaje natural (NLU) y la generación de lenguaje natural (NLG). El procesamiento de datos desde datos sin estructurar hasta datos estructurados se denomina comprensión de lenguaje natural (NLU). La comprensión del lenguaje natural utiliza muchas técnicas para interpretar el lenguaje escrito o hablado con el fin de comprender su significado y su contexto. Conocerá estas técnicas en la siguiente unidad.

El procesamiento de datos a la inversa (de estructurados a no estructurados) se denomina generación de lenguaje natural (NLG). La generación de lenguaje natural permite que los ordenadores generen un lenguaje parecido al humano. La NLG implica el desarrollo de algoritmos y modelos que convierten información o datos estructurados en un texto o discurso contextualmente apropiado y natural. Además, incluye la generación de código en un lenguaje de programación, como la generación de una función de Python para ordenar cadenas.

En el pasado, las tareas de comprensión y generación de lenguaje natural utilizaban representaciones lingüísticas explícitas y bien estructuradas, como árboles de análisis. Mientras que la comprensión y la generación de lenguaje natural siguen siendo fundamentales para el procesamiento de lenguaje natural, la mayoría de las aplicaciones, herramientas y asistentes virtuales con los que interactuamos han evolucionado para utilizar aprendizaje profundo o redes neuronales con el fin de realizar tareas de principio a fin. Por ejemplo, es posible que un sistema de traducción asistida neuronal traduzca una oración del chino directamente al inglés sin crear explícitamente ningún tipo de estructura intermedia. Las redes neuronales reconocen patrones, palabras y frases para hacer que el procesamiento del lenguaje sea potencialmente más rápido y más preciso en cuanto a contexto.

En la siguiente unidad, aprenderá más sobre los métodos y técnicas del lenguaje natural que permiten que los ordenadores comprendan lo que decimos y respondan en consecuencia.

Recursos