Esta es la segunda y última parte de la entrada publicada el otro día. Trataremos primero el formato de codificación Unicode que almacena los símbolos con longitud variables, UTF-8; y terminaremos comentando el collation u orden lexicográfico que seguro que habéis visto si manejáis algún gestor de base de datos como MySQL.
UTF-8
La aparición de UTF-8 supuso un antes y un después en la tecnología derivada de los juegos de caracteres. Sus dos creadores fueron: Robert C. Pike y Kenneth L. Thompson (el mismo que creó Unix y fue padre de B el antecesor de C).
El rasgo más importante es que no existen problemas para representar cualquier tipo de carácter Unicode (cualquiera de cualquier lenguaje que se os pueda ocurrir vaya).
¿Cómo lo consigue? Utilizando una longitud variables de bytes en función de lo raro del carácter. De esta forma algunos caracteres llegan a ocupar 4 bytes, es decir 32 bits, por lo que imaginad la cantidad de caracteres que podemos llegar a tener representados.
Otras ventajas de su uso son las siguientes:
Es el juego de caracteres estándar de la mayor parte de las distribuciones y lo utilizáis a diario además cuando navegáis por Internet o en multitud de aplicaciones.
Collation
Cuando vi por primera vez este nombre al hacer un CREATE TABLE con MySQL, no sabía a que se refería pero vi que dependía tanto del juego de caracteres como del lenguaje en el que estábamos trabajando.
¿Para qué sirve definir la collation u ordenación lexicográfica? Dentro de un mismo juego de caracteres, tenemos que saber cuál es el orden de las letras de cara a hacer ordenaciones en función del lenguaje. Por lo tanto por ejemplo:
Además dependiendo de éste podremos definir si es lo mismo o no caracteres como: A o a, en función de nuestras necesidades.
Si tenemos un juego de caracteres como UTF-8 que soporta representaciones en todo tipo de lenguajes, necesitaremos definir el collation para saber que las ordenaciones se efectúen correctamente (si sabemos previamente qué lenguaje vamos a usar en la representación de datos, en caso de usar más de uno podemos usar el collation general o implementar este mecanismo a otro nivel).
https://www.youtube.com/embed/z-xGk9c_eOw Guionista y locutor: Manuel Ignacio López Quintero.Fecha de publicación: 31 de diciembre de 2024.
Ver comentarios
No suelo postear comentarios, pero en este caso, haré una excepción puesto que gracias a este post, he entendido muchas cosas que he estado usando sin saber del todo como funcionaban.
Gracias
@Carlos: Esa es la intención de esta serie de posts llamados "Conceptos de informática". Si quieres, comenta qué otros temas os interesarían de este estilo para desarrollarlos.
Hacía tiempo que no me acordaba yo de esto y siempre viene bien un repaso.
Gracias Carazo.
Hola, tengo un problema con un documento de openoffice. sin kerer le e cambiao el juego de caracteres y aora el documento me sale con simbolos y letras ke no corresponde con lo ke yo escribi.
me podriais decir ke juego de caracteres debo de poner??
gracias