ASCII, UTF-8, ISO-8859 … Es posible que hayas visto estos extraños apodos flotando, pero ¿qué significan realmente? Siga leyendo mientras explicamos qué es la codificación de caracteres y cómo se relacionan estos acrónimos con el texto sin formato que vemos en la pantalla.
Cuando hablamos del lenguaje escrito, hablamos de que las letras son los componentes básicos de las palabras, que luego construyen oraciones, párrafos, etc. Las letras son símbolos que representan sonidos. Cuando hablas de lenguaje, estás hablando de grupos de sonidos que se unen para formar algún tipo de significado. Cada sistema de lenguaje tiene un conjunto complejo de reglas y definiciones que gobiernan esos significados. Si tiene una palabra, es inútil a menos que sepa de qué idioma es y la use con otros que hablan ese idioma.
(Comparación de guiones de Grantha, Tulu y malayalam, imagen de Wikipedia )
En el mundo de las computadoras, usamos el término «personaje». Un carácter es una especie de concepto abstracto, definido por parámetros específicos, pero es la unidad fundamental de significado. El latín ‘A’ no es lo mismo que un griego ‘alfa’ o un árabe ‘alif’ porque tienen diferentes contextos, son de diferentes idiomas y tienen pronunciaciones ligeramente diferentes, por lo que podemos decir que son caracteres diferentes. La representación visual de un carácter se denomina «glifo» y los diferentes conjuntos de glifos se denominan fuentes. Los grupos de personajes pertenecen a un «conjunto» o un «repertorio».
Cuando escribe un párrafo y cambia la fuente, no está cambiando los valores fonéticos de las letras, está cambiando su apariencia. Es solo cosmético (¡pero no sin importancia!). Algunos idiomas, como el antiguo egipcio y el chino, tienen ideogramas; estos representan ideas completas en lugar de sonidos, y su pronunciación puede variar con el tiempo y la distancia. Si sustituye un carácter por otro, está sustituyendo una idea. Es más que solo cambiar letras, es cambiar un ideograma.
(Imagen de Wikipedia )
Cuando escribe algo en el teclado o carga un archivo, ¿cómo sabe la computadora qué mostrar? Para eso es la codificación de caracteres. El texto de su computadora no es realmente letras, es una serie de valores alfanuméricos emparejados. La codificación de caracteres actúa como una clave para qué valores corresponden a qué caracteres, de manera muy similar a cómo la ortografía dicta qué sonidos corresponden a qué letras. El código Morse es una especie de codificación de caracteres. Explica cómo los grupos de unidades largas y cortas, como los pitidos, representan personajes. En código Morse, los caracteres son solo letras, números y puntos en inglés. Hay muchas codificaciones de caracteres de computadora que se traducen en letras, números, acentos, signos de puntuación, símbolos internacionales, etc.
A menudo, en este tema, también se utiliza el término «páginas de códigos». Básicamente son codificaciones de caracteres que utilizan empresas específicas, a menudo con ligeras modificaciones. Por ejemplo, la página de códigos de Windows 1252 (antes conocida como ANSI 1252) es una forma modificada de ISO-8859-1. Se utilizan principalmente como un sistema interno para referirse a codificaciones de caracteres estándar y modificadas que son específicas de los mismos sistemas. Al principio, la codificación de caracteres no era tan importante porque las computadoras no se comunicaban entre sí. Con el aumento de la prominencia de Internet y la creación de redes como algo común, se ha convertido en un elemento cada vez más importante de nuestra vida cotidiana sin que nos demos cuenta.
(Imagen de sarah sosiak )
Hay muchas codificaciones de caracteres diferentes, y hay muchas razones para ello. La codificación de caracteres que elija utilizar dependerá de sus necesidades. Si se comunica en ruso, tiene sentido utilizar una codificación de caracteres que admita bien el cirílico. Si te comunicas en coreano, querrás algo que represente bien a Hangul y Hanja. Si eres matemático, entonces quieres algo que tenga bien representados todos los símbolos científicos y matemáticos, así como los glifos griegos y latinos. Si eres un bromista, tal vez te beneficiarías de un texto al revés . Y, si desea que todos esos tipos de documentos sean vistos por cualquier persona, desea una codificación que sea bastante común y de fácil acceso.
Echemos un vistazo a algunos de los más comunes.
(Extracto de la tabla ASCII, imagen de asciitable.com )
(Extracto de la escritura tibetana, Unicode v4, de unicode.org )
Bueno, ASCII funciona para la mayoría de hablantes de inglés, pero no para mucho más. Con más frecuencia verá ISO-8859-1, que funciona para la mayoría de los idiomas de Europa occidental. Las otras versiones de ISO-8859 funcionan en cirílico, árabe, griego u otras escrituras específicas. Sin embargo, si desea mostrar varios scripts en el mismo documento o en la misma página web, UTF-8 permite una compatibilidad mucho mejor. También funciona muy bien para las personas que usan la puntuación adecuada, los símbolos matemáticos o caracteres improvisados, como cuadrados y casillas de verificación .
(Varios idiomas en un documento, captura de pantalla de gujaratsamachar.com )
Sin embargo, cada conjunto tiene sus inconvenientes. ASCII está limitado en sus signos de puntuación, por lo que no funciona increíblemente bien para ediciones tipográficamente correctas. ¿Alguna vez escribió copiar / pegar desde Word solo para tener una combinación extraña de glifos? Ese es el inconveniente de ISO-8859, o más correctamente, su supuesta interoperabilidad con las páginas de códigos específicas del sistema operativo (¡te estamos mirando a TI, Microsoft!). El principal inconveniente de UTF-8 es la falta de un soporte adecuado en las aplicaciones de edición y publicación. Otro problema es que los navegadores a menudo no interpretan y solo muestran la marca de orden de bytes de un carácter codificado en UTF-8. Esto da como resultado que se muestren glifos no deseados. Y por supuesto,
Para sus propios documentos, manuscritos, etc., puede utilizar lo que necesite para realizar el trabajo. Sin embargo, en lo que respecta a la web, parece que la mayoría de las personas están de acuerdo en usar una versión UTF-8 que no usa una marca de orden de bytes, pero eso no es del todo unánime. Como puede ver, cada codificación de caracteres tiene su propio uso, contexto y fortalezas y debilidades. Como usuario final, probablemente no tendrá que lidiar con esto, pero ahora puede dar un paso más si así lo desea.
El mundo del gaming ha experimentado un crecimiento exponencial en los últimos años. La…
Stokkete/Shutterstock.com ¿Sigue utilizando una unidad flash USB obsoleta para almacenar sus archivos? ¿Por qué no…
LG Los fabricantes siempre intentan mejorar el rendimiento de imagen de los monitores. Como resultado,…
Patty Chan/Shutterstock.com Si cree en lo que ve en las redes sociales, puede pensar en…
Seksan.TH/Shutterstock.com Los servicios de suscripción como Netflix, Game Pass y Spotify nos permiten consumir tantas…
fatmawati achmad zaenuri/Shutterstock El acceso a Internet, oa cualquier otra red, se rige por la…