El contenido digital no siempre luce igual cuando se muestra en diferentes idiomas. Sin una codificación adecuada, los caracteres pueden aparecer ilegibles, lo que genera confusión, corrupción de datos o incluso fallas del sitio en los mercados globales.
Ya sea que esté creando una aplicación multilingüe o localizando su sitio web, la codificación de caracteres es uno de los procesos que lo ayuda a ofrecer texto preciso y experiencias de usuario fluidas. Comprender su importancia y los diferentes formatos, como la codificación ASCII y Unicode, le permitirá traducir y mostrar fácilmente sus mensajes para audiencias multilingües.
En esta guía, explicaremos qué es la codificación de caracteres, los estándares clave en uso hoy en día y por qué la codificación es crucial para la internacionalización.
¿Qué es la codificación de caracteres y cómo afecta la localización exitosa de un sitio web?
La codificación de caracteres implica convertir texto en números o símbolos para que las máquinas puedan procesar y mostrar texto en sitios web, aplicaciones y sistemas operativos. Dado que las computadoras funcionan con dígitos binarios (0 y 1), la codificación de caracteres proporciona una manera de traducir texto de diferentes idiomas a un formato digital que las máquinas pueden interpretar fácilmente.
He aquí un ejemplo de codificación básica: en un estándar de codificación, “A” podría estar representada por la secuencia binaria “01000001”. La computadora lee estos datos binarios y el estándar de codificación los traduce al carácter legible por humanos correspondiente: “A”.
La codificación de caracteres juega un papel fundamental en la localización para las compañías globales porque les permite mostrar con precisión una amplia gama de caracteres de varios sistemas de escritura, incluidos el chino, el árabe y el cirílico. Esto conduce a una traducción más precisa y rápida.
Las compañías también pueden emplear la Red de Entrega Global (GDN) de Smartling, un proxy sitio web de traducción, para lanzar rápidamente traducciones para sitios web y aplicaciones. Una vez configurado, el contenido puede fluir sin problemas desde su sitio web a Smartling para su traducción. Smartling incluso proporciona un menú de caracteres especiales para diferentes idiomas y opciones de formato que puedes insertar fácilmente en tus traducciones.
¿Cuáles son los principales tipos de codificación de caracteres?
Cada formato de codificación de caracteres admite diferentes idiomas y necesidades técnicas para la localización de contenido.
|
Tipo de codificación |
Características principales |
Idiomas admitidos |
Casos de uso |
|
ASCII |
7 bits, representa 128 caracteres, incluidas letras inglesas, números y símbolos básicos. |
Inglés |
Computación temprana, archivos de texto simples, sistemas heredados |
|
ISO-8859-1 |
8 bits, representa varios caracteres de Europa occidental y oriental |
Idiomas de Europa occidental, como el alemán, el francés y el español. |
Contenido sitio web heredado, documentos internacionales |
|
UTF-8 |
Longitud variable (1-4 bytes), compatible con versiones anteriores de ASCII, maneja todos los caracteres Unicode, no requiere BOM |
Casi todos los idiomas |
Contenido sitio web, aplicaciones modernas, intercambio de datos entre plataformas |
|
UTF-16 |
Una o dos unidades de código de 16 bits |
Casi todos los idiomas, además de caracteres especiales como emojis. |
Contenido sitio web e internacional, archivos de texto modernos con caracteres especiales |
|
Windows-1252 |
8 bits, incluye caracteres de Europa occidental; superconjunto de ASCII |
Idiomas de Europa del Este como el polaco y el checo |
Aplicaciones heredadas basadas en Windows |
A continuación, analizamos en detalle los tipos de codificación de caracteres más comunes, incluido cómo funcionan y ejemplos de cómo se emplean en aplicaciones y sitios web localizados .
ASCII
El Código Estándar Americano para el Intercambio de Información (ASCII) es uno de los primeros y más simples sistemas de codificación de caracteres. ASCII emplea 7 bits para codificar 128 caracteres, que abarcan letras, números y signos de puntaje básicos del inglés.
Con ASCII, cada carácter se asigna a un código numérico único. Por ejemplo, la letra mayúscula “A” se representa como 65 y el signo de exclamación “!” es 33. En binario, “A” se convierte en “01000001”. ASCII es fundamental para los esquemas de codificación modernos, pero está limitado al inglés y carece de soporte para caracteres acentuados o no latinos.
ISO-8859-1
ISO-8859-1 es un formato de codificación de caracteres de un solo byte de 8 bits desarrollado por la Organización Internacional de Normalización (ISO) para ampliar las capacidades de ASCII a los idiomas de Europa occidental.
ISO-8859-1 codifica 256 caracteres, incluidas letras adicionales con acentos como “é” y “ö”, y una gran cantidad de caracteres especiales de puntaje y símbolos. Por ejemplo, el carácter “é” está representado por el código 233, y “ñ” es 241. Sin embargo, ISO-8859-1 no puede codificar caracteres fuera del conjunto de Europa occidental, lo que limita su uso para aplicaciones internacionales.
UTF-8
El formato de transformación Unicode de 8 bits (UTF-8) es un formato de codificación de caracteres de longitud variable diseñado para una compatibilidad lingüística global y eficiente. Con UTF-8, todos los caracteres ASCII se codifican empleando un byte y mantienen los mismos valores binarios. Los caracteres que no son ASCII, como “€”, emplean secuencias de varios bytes, como “11100010 10000010 10101100” para “€” en binario.
UTF-8 puede codificar cada carácter del estándar Unicode para brindar soporte multilingüe perfecto. Se convirtió en el formato de codificación dominante para el sitio web y las aplicaciones modernas debido a su capacidad para manejar grandes conjuntos de idiomas.
UTF-16
UTF-16 representa cada carácter del estándar Unicode empleando una o dos unidades de código de 16 bits. Los caracteres en los scripts regulares se almacenan como una única unidad de 16 bits, y otros caracteres (como emojis y scripts históricos raros) aparecen como pares sustitutos, que son dos unidades de código de 16 bits combinadas.
Por ejemplo, “A” (U+0041) en UTF-16 es 0x0041, mientras que el emoji de cara sonriente “😊” (U+1F60A) se almacena como el par sustituto 0xD83D 0xDE0A. Esto permite que UTF-16 codifique más de un millón de caracteres diferentes, aunque emplea más espacio que UTF-8 para algunos textos.
Windows-1252
Windows-1252 es un tipo de codificación de caracteres de 8 bits desarrollado por Microsoft para idiomas de Europa occidental, comúnmente llamado codificación “ANSI” en entornos Windows. Es similar a ISO-8859-1 pero incluye caracteres adicionales como comillas (“ ”) y el símbolo del euro (€).
Windows-1252 se usó ampliamente en documentos y aplicaciones heredadas de Windows, pero fue reemplazado en gran medida por UTF-8, especialmente por compatibilidad internacional.
Resolver los desafíos de codificación de caracteres en un mundo multilingüe: 5 desafíos y mejores prácticas
La codificación de caracteres es técnica y matizada, lo que plantea ciertos desafíos para las compañías que intentan llegar a audiencias multilingües. A medida que localiza contenido a gran escala, tenga en cuenta estos problemas de codificación comunes y las mejores prácticas para abordarlos:
1. Texto ilegible
Cuando el software interpreta texto empleando una codificación de caracteres incorrecta, puede generar caracteres ilegibles y confusos, como signos de interrogación o símbolos aleatorios. Esto suele suceder cuando un texto codificado en un formato (como UTF-8) se abre o se procesa empleando una codificación diferente (como ISO-8859-1), lo que genera interpretaciones de bytes no coincidentes. El texto ilegible crea confusión para los usuarios y puede disminuir la credibilidad de un sitio.
Práctica recomendada: intente emplear una codificación coherente en todo el contenido. Puede hacerlo empleando etiquetas HTML como <meta charset="UTF-8"> para garantizar que los navegadores procesen el texto según lo previsto.
2. Pérdida de datos durante la conversión
Al convertir contenido entre diferentes codificaciones (por ejemplo, de Windows-1252 a UTF-8), es posible que se pierdan algunos caracteres o se sustituyan incorrectamente. Esto puede afectar gravemente la legibilidad del contenido multilingüe y localizado y, si no se detecta a tiempo, podría provocar corrupción de datos.
Práctica recomendada: emplee herramientas de traducción compatibles con Unicode que agilicen la conversión entre formatos de codificación. Además, siempre haga una copia de seguridad de los datos antes de realizar cambios de codificación y pruebe los resultados para comprobar su precisión.
3. Falta de compatibilidad con fuentes o glifos multilingües
Incluso con el formato de codificación de caracteres correcto, el texto puede aparecer como cuadrados en blanco si las fuentes o los glifos necesarios no están disponibles en el dispositivo del usuario. Este problema es especialmente común cuando se emplean letras acentuadas o emojis que los conjuntos de fuentes más antiguos o básicos podrían no admitir.
Práctica recomendada: emplee fuentes sitio web seguras que admitan una amplia gama de caracteres en todos los idiomas. Cree una pila de fuentes de caracteres de reservación que el sistema pueda insertar automáticamente en el texto si es necesario.
4. Texto bidireccional
Idiomas como el árabe y el hebreo emplean un sistema de escritura de derecha a izquierda (RTL), lo que puede generar problemas de diseño y alineación, especialmente cuando se mezclan con escrituras de izquierda a derecha (LTR), como el inglés. Si estos idiomas no están codificados correctamente, pueden interrumpir el flujo de lectura o romper el formato por completo.
Práctica recomendada: aplicar un lenguaje correcto y marcados específicos de dirección, como dir="rtl" y lang="ar" en HTML, para ayudar a los navegadores a mostrar el texto con precisión. Elija marcos que admitan diseños RTL y pruebe el contenido para cerciorar de que se muestre correctamente para todos los públicos.
5. Problemas con la marca de orden de bytes
Una marca de orden de bytes (BOM) es un marcador especial al comienzo de un archivo de texto que indica el orden de bytes y la codificación. Las listas de materiales pueden causar problemas como:
- Caracteres invisibles inesperados al comienzo de los archivos (por ejemplo, “”)
- Incompatibilidad con algunos sistemas, como navegadores sitio web más antiguos
- Interoperabilidad entre aplicaciones
Práctica recomendada: al procesar archivos de texto, emplee herramientas que puedan detectar automáticamente y manejar las listas de materiales de manera adecuada. Para el contenido sitio web, omita el BOM en UTF-8 para evitar problemas de visualización.
Facilite la codificación con las herramientas de localización de Smartling
La codificación de caracteres a menudo es invisible para los usuarios, pero es vital para la forma en que experimentan el contenido en diferentes dispositivos e idiomas, desde aplicaciones localizadas hasta sitios web multilingües. Al comprender los conceptos básicos de codificación, los equipos de traducción y desarrollo pueden evitar errores costosos y ofrecer una experiencia más fluida para el público global.
Smartling está diseñado para ayudar a las compañías a crecer globalmente y al mismo tiempo simplificar la traducción para los desarrolladores con un poderoso proxy sitio web y una API estable. Smartling se integra directamente con sus pilas tecnológicas existentes, eliminando tareas manuales y agilizando el proceso de traducción. De hecho, Smartling te permite agregar nuevos idiomas y activar flujos de trabajo de traducción con cada envío de código, para que puedas expandirte internacionalmente sin perder el ritmo.
British Airways, por ejemplo, aprovechó el proxy de traducción sitio web de Smartling para localizar su sitio web para los clientes coreanos. Con la plataforma centralizada de Smartling, British Airways pudo traducir más de 500.000 palabras y lanzar su producto el doble de rápido de lo habitual. Lea el estudio de caso para ver cómo lo lograron.