Especialmente si ha tenido un proceso de traducción impulsado por humanos durante algún tiempo, es posible que se pregunte si la traducción automática (TA) puede producir resultados comparables en términos de calidad. Hablemos de la precisión general de la traducción automática, de cómo se evalúa la calidad de la traducción automática y de hacia dónde se dirigen la traducción automática y la estimación de la calidad.
¿Cuál es la precisión de la traducción automática?
La traducción automática es bastante precisa gracias al auge de las redes neuronales, un método de la inteligencia artificial. En lugar de traducir casi palabra por palabra, estas redes tienen en cuenta el contexto para producir traducciones más precisas. Pero, ¿se acercan al equivalente humano? La respuesta a menudo depende de varios factores:
- Su software de traducción automática. Algunos motores de traducción automática son más fiables que otros en términos de calidad de traducción, por lo que el que elija es importante.
- Dominio. Algunos sistemas de traducción automática son de uso general, mientras que otros están formados en sectores específicos. A la hora de traducir terminología compleja, por ejemplo, para contenidos científicos o jurídicos, contar con un motor de TA entrenado en su dominio puede marcar la diferencia.
- Tipo de contenido. La traducción automática puede no ser tan precisa para cosas como campañas de marketing, eslóganes o lemas. A menudo, se requiere capturar la personalidad o una emoción de una marca en lugar de ofrecer una traducción exacta.
- Par de idiomas. Incluso las puntuaciones de calidad de los mejores proveedores de TA variarán en función del par de idiomas. Una variedad de factores pueden causar esto, incluida la falta de palabras o frases equivalentes en los idiomas de destino y de origen.
A fin de cuentas, la traducción automática a menudo puede llevarlo a la mayor parte del camino en una traducción. A continuación, los traductores humanos pueden realizar la posedición de la traducción automática (MTPE) para garantizar la precisión y llevar el contenido a un estado publicable.
¿Qué es la evaluación de la calidad de la traducción automática?
La evaluación de la calidad de la TA es la forma tradicional de evaluar si el texto traducido automáticamente está a la par con la forma en que un humano traduciría el texto de origen. Hay una variedad de métricas de evaluación, incluidas BLEU, NIST y TER. Se utilizan para puntuar segmentos traducidos automáticamente en función de su similitud con las traducciones de referencia.
Las traducciones de referencia son traducciones de alta calidad del texto original generadas por traductores humanos. Estas referencias son útiles, por supuesto. Sin embargo, no siempre están disponibles: confiar en ellos durante los proyectos de traducción no es lo ideal. Entonces, ¿cuál es la forma más efectiva de evaluar la calidad? En Smartling, utilizamos una combinación de dos métodos.
La primera son las evaluaciones mensuales de métricas de calidad multidimensional (MQM) de terceros en ocho localidades. Estas evaluaciones son el estándar de oro en la industria para evaluar HT, MT y MTPE. Para asignar puntuaciones de calidad adecuadas, MQM analiza el tipo y la gravedad de los errores encontrados en el texto traducido.
En segundo lugar, aprovechamos las evaluaciones de calidad continuas, automatizadas y en tiempo real. Estos miden la distancia final o la tasa de error de traducción en HT, MT y MTPE. En definitiva, estos dos tipos de evaluación nos permiten ofrecer una calidad de traducción garantizada.
¿Cuál es la importancia de la evaluación de la traducción automática?
La evaluación tiene como objetivo determinar si una traducción cumple con los siguientes criterios:
- Preciso. El contenido debe transmitir fielmente el mensaje y el sentimiento del texto original en el idioma de destino.
- Claro. El mensaje debe ser fácilmente comprensible y las instrucciones deben ser accionables y fáciles de seguir.
- Apropiado. Ciertas audiencias requieren ciertos niveles de formalidad, por ejemplo. Es crucial asegurarse de que los segmentos traducidos muestren a la audiencia el debido respeto y no los alienen ni ofendan.
Un segmento traducido que se quede corto en cualquiera de estas áreas requerirá una posedición por parte de un traductor humano.
En cuanto a los beneficios de la evaluación de la MT, hay varios. Puede usarlo para estimar los costos y ahorros de traducción y para determinar la compensación adecuada para los lingüistas. Los traductores también pueden ver de un vistazo cuánto esfuerzo de posedición requerirá un fragmento de contenido.
Dos métodos para evaluar la calidad de la traducción automática
Hay dos opciones para evaluar la traducción automática:
- Evaluación manual: Los traductores humanos se fijan en factores como la fluidez, la adecuación y los errores de traducción, como la falta de palabras y el orden incorrecto de las palabras. La desventaja de este método es que cada lingüista puede definir la "cualidad" subjetivamente.
- Evaluación automática: Este método implica la puntuación mediante algoritmos. Los algoritmos utilizan traducciones de referencia humanas y métricas automáticas como BLEU y METEOR para evaluar la calidad. Si bien la evaluación humana es más precisa a nivel de oración, este método ofrece una vista panorámica y es más escalable y rentable.
Las diferencias: estimación de la calidad de la traducción automática vs. evaluación
A diferencia de la evaluación de la calidad, la estimación de la calidad de la traducción automática (MTQE) no se basa en traducciones de referencia humanas. Utiliza métodos de aprendizaje automático (ML) para aprender de las correlaciones entre los segmentos de origen y destino. Estas correlaciones informan las estimaciones, que se pueden crear a nivel de palabra, frase, oración o documento.
¿Para qué utilizar la estimación de calidad MT?
En nuestro episodio de la serie de telerrealidad sobre la estimación de la calidad de la traducción automática, Mei Zheng, científica de datos sénior de Smartling, dio este consejo:
"Si tienes los recursos para hacer una puntuación automática en todos tus contenidos, definitivamente hazlo. A continuación, muestree algunas de esas cadenas para que las personas las evalúen. De esta manera, se obtiene una línea de base de lo que corresponde a esa puntuación automática cuando un lingüista la ve".
¿Cuál es el valor de establecer estas líneas de base basadas en estimaciones de calidad para una amplia gama de contenidos? Cuando también identificas patrones en cadenas traducidas incorrectamente, puedes juzgar de manera rápida y confiable si el contenido traducido automáticamente se puede publicar tal como está.
Factores que afectan los puntajes de estimación de calidad de MT
La estimación automática de la calidad es rápida y rentable. Sin embargo, como dice Alex Yanishevsky, director de soluciones de traducción automática e inteligencia artificial de Smartling, "no te va a dar la misma visión que un ser humano". Como se discutió en el seminario web de MTQE, hay varias razones para esto.
La fuente y su calidad
Existen diferentes algoritmos para la estimación de la calidad, pero la mayoría no tiene en cuenta el contexto circundante, como el género. Considere, por ejemplo, el siguiente texto: "El Dr. Smith fue declarado culpable de mantener un animal protegido en el Tribunal de Magistrados de Atherton después de ser acusado de retirar una pitón de matorral de la propiedad de un residente. Luego pasó por el proceso legal para apelar el fallo de la corte".
Para mayor precisión, en un idioma como el español, "Doctor" tendría que traducirse a la forma femenina (es decir, "Doctora"). Sin embargo, la mayoría de los motores de TA no están entrenados para detectar este tipo de sesgo de género. Sin la ingeniería de avisos aplicada al lenguaje de origen, la salida podría ser incorrecta y afectar a la puntuación de calidad.
Descripción de la imagen: Consideraciones de origen para la estimación de la calidad de MT
Otro factor que puede afectar a las estimaciones de calidad es la falta de claridad o la posibilidad de varias interpretaciones del texto fuente. Mei lo expresó de manera simple: "Cuando la fuente es ambigua y nosotros, como humanos, no sabemos cómo interpretarla, no podemos esperar que la traducción automática haga un mejor trabajo que nosotros".
Además, debido a que los modelos MTQE se entrenan con conjuntos de datos limpios, no siempre manejan bien los datos más desordenados. Las blasfemias son un buen ejemplo. Mei explicó: "Cuando se usan palabras obscenas, los modelos [de estimación de calidad] dan una penalización muy alta. Te dicen: 'Oye, esta es una mala traducción; No deberías publicar esto'. Cuando tienes casos de uso para [blasfemias], no puedes usar estos mecanismos de puntuación automática para eso".
Su dominio o industria
Diferentes algoritmos de puntuación pueden dar diferentes estimaciones en función de su familiaridad con la terminología de una industria. Por lo tanto, Alex enfatizó que "no hay un algoritmo de puntuación que lo abarque todo". Y continuó: "Para que un algoritmo sea efectivo, necesitaríamos datos específicos para ese dominio o esa industria". Al igual que los sistemas de TA se pueden personalizar para una industria en particular para producir traducciones más precisas, los algoritmos de puntuación también se pueden entrenar en dominios específicos.
Estos datos específicos del dominio a menudo pueden ser críticos. Alex explicó: "Si tienes una industria regulada como la de las ciencias de la vida, la medicina o la farmacéutica, el 90% [de precisión], en la mayoría de los casos, probablemente no sea lo suficientemente bueno. Si, por ejemplo, la coma está en el lugar equivocado, y estamos hablando de usar un bisturí quirúrgico, literalmente podría ser la diferencia entre la vida y la muerte". También hay mucho en juego en otras industrias, como las finanzas y el legal.
El público al que va dirigido
Las estimaciones también pueden variar en función de la comprensión de un algoritmo de los umbrales de calidad para un determinado idioma. Mei dijo: "La formalidad, la elección de palabras y la voz de tu contenido, cae dentro de tus preferencias estilísticas. Pero a veces es más que una preferencia. Es como, 'Tengo que transmitir esto formalmente; de lo contrario, perderé a mi cliente'". De ahí la razón por la que la evaluación manual puede ser tan beneficiosa para el aseguramiento de la calidad.
Mei continuó: "En el caso del español, donde no es solo formal o informal, la elección de la palabra realmente depende del nivel de respeto que tienes que pagar a la persona con la que estás hablando. Y eso depende de la relación que tengas con la persona, si esa persona es de un rango más alto que tú, o es más joven que tú".
El futuro de la calidad de la traducción automática y MTQE
La calidad de la traducción automática seguirá mejorando, especialmente a medida que más personas utilicen modelos de lenguaje grandes (LLM) como GPT-4 para complementarla. Mei hizo la observación de que "estos LLM son muy poderosos para hacer correcciones a los MT, como [garantizar] la precisión del género, la formalidad, las guías de estilo, etc.". Sin embargo, tienen deficiencias que requieren que los lingüistas tomen el relevo. Las alucinaciones LLM, en las que los modelos presentan información inexacta como un hecho, son un buen ejemplo de ello.
En última instancia, la traducción automática y los LLM permitirán que los proyectos de traducción se completen de forma más rápida y precisa. Pero los lingüistas permanecerán en el asiento del conductor, haciendo los ajustes necesarios para mejorar las traducciones. Alex compartió un sentimiento similar, prediciendo que los traductores podrían eventualmente asumir más de las tareas de un ingeniero de avisos. "Comenzarán a aprender a escribir indicaciones de tal manera que el LLM pueda corregir el resultado y suavizarlo a un estilo particular que necesiten, ya sea de género o de formalidad".
¿Y qué pasa con el futuro de la estimación de la calidad de la traducción automática? Un gran paso adelante será la creación de algoritmos que tengan en cuenta el origen y el destino. Lo ideal es que sean capaces de ponderar adecuadamente las puntuaciones para tener en cuenta factores como la ambigüedad y la complejidad de la materia. O, al menos, mejorar el proceso de señalización de problemas que podrían afectar negativamente al objetivo.
Mientras tanto, sin embargo, ya tiene acceso a motores de traducción automática de última generación a través del Centro de Traducción Automática Neuronal de Smartling. Incluso hay funciones de evaluación de calidad integradas, como Smartling Auto-Select. (La selección automática tiene en cuenta las últimas ediciones realizadas en cada motor de traducción automática disponible e identifica el mejor proveedor actual para un par de configuraciones regionales específico).
Descripción de la imagen: Motores MT integrados en el centro NMT de Smartling
¿Cuáles son los resultados de este enfoque de motor multi-MT basado en la estimación de la calidad? Hasta un 350 % más de calidad de traducciones automáticas y una menor necesidad de posedición, lo que se traduce en menores costes y un tiempo de comercialización más rápido.
Para obtener más información sobre cómo Smartling puede ayudarlo a lograr esos resultados, mire nuestra demostración del Centro de traducción automática neuronal. ¡Estaremos encantados de responder cualquier pregunta que tengas después!