La IA y el Lenguaje Humano

MR. CIP
4 min readMay 27, 2024

--

Según Ethnologue, hay alrededor de 4.000 idiomas escritos en el mundo. Sin embargo, la cantidad máxima de idiomas que admiten aplicaciones impulsadas por IA como Google Translate y ChatGPT es inferior a 150. Estas herramientas de IA no dominan con la misma fluidez todos los idiomas. Dado que están capacitados con grandes cantidades de datos en inglés, son los que mejor entienden este idioma.
El inglés es como el idioma nativo de la IA. Sin embargo, el lenguaje que la IA entiende y comunica carece de colores emocionales y de un tono de voz distintivo. Aunque los sistemas de IA están aprendiendo a reconocer las emociones humanas, hay muchos matices que todavía están lejos de detectar incluso en inglés.
Por ejemplo, puedes pedirle a ChatGPT que escriba algo sarcástico y puede que te dé alguna respuesta ingeniosa, pero no entenderá tus chistes como lo haría un humano. En la dimensión multicultural las limitaciones se hacen más notorias. Para que esto tenga sentido, a continuación se desglosa cómo la IA entiende los lenguajes humanos y qué desafíos enfrenta.

La tecnología que permite a las computadoras interactuar con los lenguajes humanos se llama Procesamiento del Lenguaje Natural (PLN). Ha sido desarrollado como resultado de la colaboración entre la informática y la lingüística. La PNL se centra en la construcción de modelos computacionales que puedan comprender, analizar y generar respuestas al lenguaje humano.Las empresas del campo de la tecnología utilizan la PNL para entrenar sus aplicaciones de IA. Cuando ve un chatbot de aprendizaje de idiomas con IA, un conversor de voz a texto, reconocimiento de voz y otras aplicaciones relacionadas con el habla y los idiomas, la PNL es parte de ello. La tecnología es fundamental para la funcionalidad de Google Translate, Siri de Apple, las recomendaciones personalizadas de Facebook, el modelo de lenguaje GPT de OpenAI, etc.La PNL ha sido un campo de investigación en IA durante décadas. Con la llegada del aprendizaje automático, permite a los sistemas de inteligencia artificial aprender de conjuntos de datos que incluyen grandes cantidades de palabras y traducciones. Debido a la constante capacitación y mejora, los modelos de lenguaje de IA son cada vez mejores. El Traductor de Google es un buen ejemplo. La aplicación ahora comprende mejor el contexto y traduce con mayor precisión que hace años. Esto lo dicen tanto las opiniones de los usuarios como las actualizaciones de la empresa.

A pesar de los avances realizados, los sistemas de inteligencia artificial todavía enfrentan el desafío de traducir palabras con precisión. Las aplicaciones pueden fallar, especialmente cuando se trata de palabras que expresan componentes culturales o tienen varios significados. Un error común entre las aplicaciones de IA es traducir nombres de lugares o tradiciones que no requieren traducción. A veces, las traducciones simplemente no tienen ningún sentido. Pueden parecer un grupo de palabras juntas al azar.Para resolver esta brecha, las empresas de tecnología han estado trabajando en modelos de lenguajes multilingües. El concepto de esta tecnología es entrenar con datos no solo en un idioma sino utilizar texto de varios idiomas al mismo tiempo. Hacerlo ayuda a las máquinas a detectar conexiones y patrones entre idiomas para lograr mejores resultados.

Como mencionamos, las habilidades lingüísticas de las computadoras son limitadas, pero después de todo, es el factor humano el que decide qué hacer con las limitaciones y cómo usar las tecnologías. Depende de las personas mejorar las traducciones y proporcionar contenido de calidad a la audiencia o tomar los resultados de la IA y utilizarlos sin verificarlos. Según una investigación reciente de la Universidad de California y el Laboratorio de Inteligencia Artificial de Amazon Web Services, una cantidad sorprendente de la web se traduce automáticamente. El documento menciona:
“El contenido de la web a menudo se traduce a muchos idiomas, y la baja calidad de estas traducciones multidireccionales indica que probablemente se crearon mediante traducción automática (MT)”.
El panorama es particularmente decepcionante para las lenguas de bajos recursos, que son lenguas con poca cantidad de contenido disponible en Internet. La misma investigación descubrió que las traducciones generadas automáticamente en idiomas de bajos recursos representan una gran fracción del contenido web total en esos idiomas. Se supone que el objetivo de estas traducciones es el lucro. Según la investigación, primero se genera contenido de mala calidad en inglés que probablemente genere ingresos publicitarios y luego se traduce en masa a muchos idiomas de menores recursos a través de la traducción automática.
Las traducciones de baja calidad dificultan que la IA aprenda idiomas. Debido a que el entrenamiento de modelos de lenguaje grandes incluye datos extraídos de la web, el contenido de baja calidad puede a su vez resultar en un entrenamiento de datos incorrecto para los sistemas.

Los sistemas de inteligencia artificial hoy memorizan millones de palabras. Son lo suficientemente buenos como para ayudar a las personas a comunicarse utilizando diferentes idiomas, una capacidad que aprecian los viajeros, por ejemplo. Las capacidades lingüísticas de la IA están mejorando junto con el progreso tecnológico, como la mejora de los modelos lingüísticos multilingües. Pero, al mismo tiempo, existen nuevos desafíos, incluido el contenido defectuoso y de baja calidad en la web. Dicho esto, el camino de la IA para dominar los lenguajes humanos es bastante complejo. Aún está por verse qué quedará perdido en la traducción y qué desafíos podrá afrontar la tecnología.

💡 Fuente:
https://svuex.com/en/news/category/crypto-news/article/ai-and-human-languages

--

--