|
Pages: [1]
|
 |
|
Auteur
|
Sujet: résolu - [encodage] unicode ? (Lu 732 fois)
|
|
tetram9
|
Pour le coup, je ne savais pas où mettre ce message... Bref, il s'agit d'une question sur l'encodage de caractères spéciaux. Comme elle n'est spécifique à aucun langage j'ai choisi de la mettre ici. Dans le cas de certains sites comme wikipédia ou le dmoz, les caractères spéciaux contenus dans les urls sont encodés, c'est un constat. E.g. si on tape http://dmoz.org/World/français/ dans la barre d'adresse d'un navigateur, alors celui-ci la transformera pour sûr en http://dmoz.org/World/Fran%c3%a7ais/ pourtant j'ai regardé sur le site d'unicode et il semble qu'en latin-1 le " ç" aie pour code 00E7 ou U+00E7. ce qui est différent du %c3%a7 auquel on a droit à tous les coups. Pour les indécis, wikipédia produit un effet identique. Ma question est donc simple : quel est l'encodage responsable puisque contrairement à ce à quoi je m'attendais, il ne semble pas s'agir d'unicode ? Sur ce, bonne nuit 
|
|
|
|
« Dernière édition: 06 Octobre 2005, 18:43:42 par tetram9 »
|
Journalisée
|
|
|
|
|
Shiingo
|
Tu veux surement parler ici de l'encodage issu du type MIME application/x-www-form-urlencoded. L'encodage se fait très simplement: - Les caractères ascii du style a-z, A-Z, 0-9 et . - * _ reste inchangé, - Le caractère " " (espace) se traduit lui par le symbole +, - et pour finir, tous les autres caractères (ç, é, à et cie) sont convertis de la sorte : %xy ou xy représente la forme héxadécimale du caractère (en minuscule) codé sur 8-bits. Si un soir tu n'as pas envie de dormir, je te conseille alors la rfc1738 ( rfc1738) qui t'explique tout ça un peu plus en détail. ^^
|
|
|
|
|
Journalisée
|
|
|
|
|
VERSUS2000
|
Mais sur nos navigateurs il n'y a pas moyen de voir les url affichés autrement ?
|
|
|
|
|
Journalisée
|
Il existe des gens qui sont Hyperactifs. Les fous. Moi je me contente juste d'être Larveactif ^_^
|
|
|
|
tetram9
|
- et pour finir, tous les autres caractères (ç, é, à et cie) sont convertis de la sorte : %xy ou xy représente la forme héxadécimale du caractère (en minuscule) codé sur 8-bits.
Mais pourquoi le " ç" donne %c3%a7 ? J'aurais plutôt tendance à le traduire en %E7 ce qui visiblement est faut. J'ai pas trouvé de table de caractères qui me permette de faire la bonne manoeuvre.
|
|
|
|
|
Journalisée
|
|
|
|
|
|
|
tetram9
|
Désolé d'insister mais sur ce lien, quand on donne le ç dans le formulaire à la fin de l'article, il renvoie %E7 comme je m'y attendais mais manifestement, wikipédia et dmoz en font un %c3%a7, j'ai pas encore compris pourquoi :/
|
|
|
|
|
Journalisée
|
|
|
|
|
Lawouach
|
Je crois que wikipedia est buggé 
|
|
|
|
|
Journalisée
|
|
|
|
|
tetram9
|
Je crois que wikipedia est buggé  Non, mais j'ai mis du temps à comprendre...  Prenons la définition du codage UTF-8. Suivant le code hexa du caractère, on ne le codera pas sur le même nombre de bit. - Si le code est dans la plage 000000–00007F, alors on code sur 7 bits (pas de problème), 0xxxxxxx ;
- Si le code est dans la plage 000080–0007FF, alors on code sur 11 bits avec ce schéma 110xxxxx 10xxxxxx ;
- etc. pour les 2 autres plages de codage, cf, la doc hein

Pour mon exemple de ç, le code unicode est U+00E7. On voit que E7 est dans la seconde plage, donc on codera suivant le schéma : 110xxxxx 10xxxxxx. E7 en binaire, ça fait 11100111 soit sur 11 bits : 00011100111. On place ce nombre dans le canevas qu'on a et ça donne le codage UTF-8 binaire : 11000011 10100111. On convertit en hexa : 0xC3 0xA7 et on retrouve ce qui est affiché dans le navigateur sous la forme : %c3%a7. Pfffiou, voila donc l'explication obtenue avec mes neurones, des mongueurs et la page sur UTF-8 de wikipedia 
|
|
|
|
|
Journalisée
|
|
|
|
|
VERSUS2000
|
GéGé  Maintenant faudrais juste que mozilla supporte l'affichage des carateres plutot que de d'afficher des fonfonneries dans la barre d'adresse.
|
|
|
|
|
Journalisée
|
Il existe des gens qui sont Hyperactifs. Les fous. Moi je me contente juste d'être Larveactif ^_^
|
|
|
|
Lawouach
|
C'est pas mozilla qui est responsable mais le faite que les URLs doivent être encodées en US-ASCII
|
|
|
|
|
Journalisée
|
|
|
|
|
tetram9
|
C'est pas mozilla qui est responsable mais le faite que les URLs doivent être encodées en US-ASCII
Pas mieux. 
|
|
|
|
|
Journalisée
|
|
|
|
|
VERSUS2000
|
oui bah elles peuvent etre encodees comme ils veulent. Ils pourraient afficher ça d'une façon plus esthetique...
|
|
|
|
|
Journalisée
|
Il existe des gens qui sont Hyperactifs. Les fous. Moi je me contente juste d'être Larveactif ^_^
|
|
|
|
Lawouach
|
je crois que tu ne comprends pas trop le problème de l'encoding et de ses implications  ceci étant, il faut lire le RFC sur les IRI
|
|
|
|
|
Journalisée
|
|
|
|
|
|
Pages: [1]
|
|
|
 |