Encodage : UTF-8 avec ou sans BOM ?

Metzgermeister · Février 17, 2006, 10:34

Salut !
Je me suis documenté sur le site http://www.unicode.org, mais je n’ai pas trop compris l’inconvéniant d’utiliser le BOM avec UTF-8. J’ai seulement pigé que le BOM pouvait servir de repère, mais après j’ai lu dans pas mal de sites web que cette méthode était à proscrire, et je ne comprend pas pourquoi.

Pouvez-vous m’aider ?

Merci !

Ge_Off · Février 22, 2006, 2:08

Disons que le BOM peut servir de repère si aucun autre n’existe.
Si tu te prends un bon gros tableau de bytes dans la tronche avec comme consigne “trouve moi ce putain d’encoding”, si y un BOM tu sais déjà que c’est de l’Unicode, et en plus exactement quel type d’Unicode.

Par contre si tu as déjà une notion d’encoding de spécifiée ailleurs (par exemple dans le Content-Type: xxx/xxx; charset=xxx d’une entête HTTP), le BOM se trouve un peu inutile…

Les enculeurs de mouches te diront même que tu évites à 3/4 octets d’être inutilement envoyés.

'fin bref, pour moi, si les 2 parties connaissent d’avance l’encoding employé dans leur protocole de transmission, rajouter une information sur l’encoding est pour moi inutile.

Si j’ai pû t’aider…
PS.: si vous avez des collègues qui croient encore que 1 byte = 1 char, tappez les de ma part…

Metzgermeister · Février 24, 2006, 9:14

Donc, le BOM ne me servira pas si je crée une page avec la balise meta charset=UTF-8. Merci c’est ce que je voulais savoir !