Le 19/03/2008 16:31, Pierre Goiffon a écrit :
>
> UTF-8 peut être disproportionné pour
> certains contenus... et attention à l'augmentation de volume !
> (un jour je finirai la rédaction de
> http://pgoiffon.free.fr/info/i18n/we...ages_latin.php)
<cit.>
UTF-8 : codage à nombre d'octets variables (entre 1 et 6).
</cit.>
Noter que la plupart des caractères sont définis dans le « Basic
Multilingual Plane (BMP) » de 0x0000 à 0xFFFD, et sont donc encodés
en 3 octets au maximum, et surtout qu'il est maintenant établi que
l'on n'ira jamais au delà de 0x10FFFF, ce qui se code en 4 octets
au maximum.
Alors oui, UTF-8 peut être disproportionné pour l'écriture de certaines
langues dans lesquelles chaque caractère prend 3 octets en UTF-8 contre
seulement 2 dans des encodages spécifiques (tels que Shift-JIS pour le
japonais), mais ça n'ira jamais beaucoup plus loin.