UTF-8 a WWW

Používanie UTF-8 na webe je v dnešnej dobe bežnou praxou a nevyžaduje si žiadne špeciálne nastavenia na strane užívateľa. Aktuálne verzie webových priehliadačov sú pri dodržaní štandardov bez problémov schopné správne zobraziť dokumenty v kódovaní UTF-8. Najlepším dôkazom uvedeného tvrdenia je fakt, že kódovanie UTF-8 v súčasnosti používajú aj kritické aplikácie typu Internetbanking.

Nastavenie kódovania UTF-8 na strane servera môžno urobiť nasledujúcimi spôsobmi:
  • V HTML súboroch treba do časti <HEAD> doplniť:

    <META http-equiv="Content-Type" content="text/html; charset=utf-8">

    Ak HTML súbor neobsahuje explicitnú definíciu použitého kódovania, dochádza často k problémom ak si používateľ uloží takýto súbor na lokálny disk.

  • V XML súboroch sa kódovanie definuje v prvom riadku súboru:

    <?xml version="1.0" encoding="utf-8"?>

  • Textové súbory (.txt) neumožňujú definovať použítú kódovú stránku priamo vo vnútri súboru. Je preto nevyhnutné vytvoriť v príslušnom adresári súbor .htaccess a predvoliť v ňom kódovanie UTF-8:

    AddType "text/plain; charset=utf-8" txt

  • Ak všetky dokumenty na danom serveri používajú kódovanie UTF-8 (ako je to napr. v najnovších distribúciách Linuxu), je optimálne nastaviť UTF-8 ako default aj v konfiguračnom súbore Apache:

    AddDefaultCharset UTF-8

Pre úplnosť treba dodať, že Unicode možno použiť aj v prípadoch ak HTML dokument nepoužíva kódovanie UTF-8. Ľubovoľný znak možno do HTML dokumentu vložiť prostedníctvom jeho Unicode codepointu v tvare &#xxx; kde xxx je hodnota codepointu v desiatkovej sústave. Ak teda potrebujeme do HTML dokumentu v kódovej stránke ISO-8859-1 vložiť slovo "čas", môžeme to urobiť takto: &#269;as