Afficher un message
Vieux 13/09/2007, 09h26   #6
heulman
Aucun Avatar
 
Messages: n/a
Hébergeur:
Par défaut Re: zip_entry_name & accents

"Olivier Miakinen" <om+news@miakinen.net> a écrit dans le message de news:
46e6c286$1@neottia.net...
> Le 10/09/2007 23:17, heulman a écrit :
>>
>> $k = iconv("CP850", "CP1252", $j);
>>
>> Effectivement, ça roule ! ... enfin presque.
>>
>> Avec 7-zip ou WinRar ça fonctionne, mais pas tout à fait avec WinZip.
>> En effet, quand WinZip trouve un oe ("e dans l'o") dans le nom de fichier

>
> Ah ? Parce que 7-zip et WinRar n'ont *pas* de problème pour encoder un ½
> en CP850 ? Ben comment ils font, alors, vu que ce caractère n'existe pas
> dans cette table ?
> C'est une vraie question, et j'aimerais bien savoir ce qu'ils en font
> (par exemple une « translittération » en oe).


7-zip et WinRar utilisent CP850 donc le ½ devient o, mais au moins ils
utilisent *toujours* CP850

>> Est-ce qu'il y a un moyen de vérifier le jeu de caractère utilisé pour
>> déterminer si il faut le changer ?

>
> Ça c'est un problème encore plus difficile à traiter dans toute sa
> généralité : il faut connaître des indicateurs spécifiques non seulement
> aux jeux de caractères, mais aussi aux langues (français, polonais,
> arabe, chinois, etc.). UTF-8 est un cas particulier, car il est
> généralement facile de prouver qu'un texte n'est *pas* en UTF-8.
>
> Dans le cas particulier où tu n'aurais que CP1252 et CP850 à l'exclusion
> de tout autre, et que du français, il y a quelques tests assez simples
> qui devraient fonctionner la plupart du temps. Par exemple, les
> minuscules accentuées du français sont toutes dans 0x9C ou 0xE0..0xFF
> pour la table CP1252, alors qu'elles sont toutes dans 0x81..0x98 pour
> CP850. Ainsi, compter le nombre de caractères dans chaque zone (avant
> d'appeler iconv(), mais peut-être aussi après pour vérifier) peut te
> donner un indice assez pertinent. Il peut être utile d'y rajouter les
> majuscules accentuées, mais avec un poids moins important : surtout les
> trois caractères Ç, É et À qui se retrouvent plus facilement en début
> de phrases.


pffouillouillouille, trop compliqué pour moi
je pense en rester là, et tant pis si les utilisateurs utilisent ½ ET Winzip

merci pour tout,
heulman
  Réponse avec citation
 
Page generated in 0,05793 seconds with 9 queries