HTML-karakterstelle


Om 'n HTML-bladsy korrek te vertoon, moet die blaaier weet watter karakterstel (enkodering) om te gebruik:

Voorbeeld

<meta charset="UTF-8">

HTML-karakterstelle

Die HTML5-spesifikasie moedig webontwikkelaars aan om die UTF-8-karakterstel te gebruik!

Dit was nie altyd die geval nie. Die karakterkodering vir die vroeë web was ASCII.

Later, vanaf HTML 2.0 tot HTML 4.01, is ISO-8859-1 as die standaardkarakterstel beskou.

Met XML en HTML5 het UTF-8 uiteindelik opgedaag en baie karakterkoderingsprobleme opgelos.


In die begin: ASCII

Rekenaardata word as binêre kodes (01000101) in die elektronika gestoor.

Om die berging van teks te standaardiseer, is die American Standard Code for Information Interchange (ASCII) geskep. Dit het 'n unieke binêre nommer vir elke stoorbare karakter gedefinieer om die nommers van 0-9, die hoof- en kleinletter-alfabet (az, AZ), en spesiale karakters soos ! $ + - ( ) @ < > , .

Aangesien ASCII 7 bisse vir die karakter gebruik het, kon dit slegs 128 verskillende karakters verteenwoordig.

Die grootste swakheid met ASCII was dat dit nie-Engelse letters uitgesluit het.

ASCII word vandag steeds gebruik, veral in groot hoofraamrekenaarstelsels.

Vir 'n nader kyk, bestudeer asseblief ons volledige ASCII-verwysing .


In Windows: Windows-1252

Windows-1252 was die verstekkarakterstel in Windows, tot Windows 95.

Dit is 'n uitbreiding tot ASCII, met bygevoegde internasionale karakters.

Dit gebruik 'n volle greep (8-bis) om 256 verskillende karakters voor te stel.

Aangesien Windows-1252 die verstek in Windows is, word dit deur alle blaaiers ondersteun.

Vir 'n nader kyk, bestudeer asseblief: Die volledige Windows-1252-verwysing .



In HTML 4: ISO-8859-1

Die karakterstel wat die meeste in HTML 4 gebruik word, was ISO-8859-1.

ISO-8859-1 is 'n uitbreiding tot ASCII, met bygevoegde internasionale karakters.

Voorbeeld

<meta http-equiv="Content-Type" content="text/html;charset=ISO-8859-1">

In HTML 4 kan 'n karakterstel anders as ISO-8859-1 in die <meta>-merker gespesifiseer word:

Voorbeeld

<meta http-equiv="Content-Type" content="text/html;charset=ISO-8859-8">

Alle HTML 4-verwerkers ondersteun ook UTF-8:

Voorbeeld

<meta http-equiv="Content-Type" content="text/html;charset=UTF-8">

Wanneer 'n blaaier ISO-8859-1 bespeur, is dit gewoonlik Windows-1252, want Windows-1252 het 32 ​​meer internasionale karakters.

Vir 'n nader kyk, bestudeer asseblief: Die volledige ISO-8859-1-verwysing


In HTML5: Unicode UTF-8

Die HTML5-spesifikasie moedig webontwikkelaars aan om die UTF-8-karakterstel te gebruik.

Voorbeeld

<meta charset="UTF-8">

'n Karakterstel anders as UTF-8 kan in die <meta>-merker gespesifiseer word:

Voorbeeld

<meta charset="ISO-8859-1">

Die Unicode-konsortium het die UTF-8- en UTF-16-standaarde ontwikkel, omdat die ISO-8859-karakterstelle beperk is en nie 'n meertalige omgewing versoenbaar is nie.

Die Unicode-standaard dek (byna) al die karakters, leestekens en simbole in die wêreld.

Alle HTML5- en XML-verwerkers ondersteun UTF-8, UTF-16, Windows-1252 en ISO-8859.

Vir 'n nader kyk, bestudeer asseblief: Die volledige Unicode-verwysing .