Redigerer UTF-8 (avsnitt)

== Beskrivelse ==
UTF-8 er for tiden standardisert i [[RFC]] 3629 og er et av flere tegnkodeformater i [[ISO/IEC 10646]]''.

[[Bit]]ene i et Unicode-tegn er delt inn i flere grupper. Tegn nummerert under 128 blir kodet med en enkelt byte som inneholder deres posisjon: Disse samsvarer nøyaktig med de 128 7-biters [[ASCII]]-tegnene. Til andre tegn brukes opp til fire byte. Den første biten i disse blir alltid satt til 1, for å skille tegnene fra 7-bits ASCII-tegn. De første 128 tegnene (0-127) av Unicode er de samme som ISO-8859-1, så det er enkelt å konvertere mellom disse tegnsettene. Tegnene med nummer 128 – 255, deriblant Æ, Ø, Å, æ,ø og å, blir 2 bytes i UTF-8.

{| style="border-collapse: collapse;" border="1"
|-----
| Område<br />[[heksadesimal]] || UTF-8<br />[[binære tall|binær]]
| Merknader
|-----
| 000000&nbsp;-&nbsp;00007F || 0xxxxxxx
| ASCII-ekvivalent; første bit begynner med null
|-----
| 000080&nbsp;-&nbsp;0007FF || 110xxxxx&nbsp;10xxxxxx
| rowspan="3" align="top" | de 2 første bits begynner med 11, de neste begynner med 10
|-----
| 000800&nbsp;-&nbsp;00FFFF
| 1110xxxx&nbsp;10xxxxxx&nbsp;10xxxxxx
|-----
| 010000&nbsp;-&nbsp;10FFFF
| 11110xxx&nbsp;10xxxxxx&nbsp;10xxxxxx&nbsp;10xxxxxx
|}

For eksempel, den hebraiske bokstaven ''[[alef]]'' (&#1488;), som er Unicode-tegn U+05D0, blir kodet i UTF-8 på denne måten:
* Det faller innunder området U+0080 til U+07FF. Tabellen viser at det vil bli kodet med to byte, ''110''xxxxx ''10''xxxxxx.
* 0x05D0 i [[heksadesimal]] er det samme som 101-1101-0000 i [[binære tall]].
* De elleve bitene blir plassert i posisjonene markert av tegnet "x": ''110''10111 ''10''010000.
* Resultatet blir to byte, som kan uttrykkes som 0xD7 0x90 i heksadesimal. Det er bokstaven alef i UTF-8.

De første 128 tegnene behøver dermed en byte. De neste 1920 tegnene kodes med to byte. Dette inkluderer en rekke europeiske tegn (deriblant de skandinaviske), samt [[Gresk alfabet|greske]], [[Kyrillisk alfabet|kyrilliske]], [[koptisk alfabet|koptiske]], [[armensk alfabet|armenske]], [[hebraisk alfabet|hebraiske]] og [[arabisk alfabet|arabiske]] tegn. De øvrige tegnene bruker tre eller fire byte. (En tidligere UTF-8-standard tillot at enda høyere posisjoner kunne representeres ved å gjøre bruk av fem eller seks byte, men dette støttes ikke lenger.)

Faktisk kan lengden på UTF-8-sekvenser være opp til seks byte, noe som dekker området U+0000 til U+7FFFFFFF (31 bit). Dette er mer enn det definerte Unicode-området, men UTF-8 ble i november [[2003]] begrenset av [https://web.archive.org/web/20050317090404/http://www.ietf.org/rfc/rfc3629.txt RFC&nbsp;3629] til å bare representere området dekket av den formelle Unicode-definisjonen, U+0000 til U+10FFFF, som er området [[UTF-16]] kan representere. Før dette var det bare bytene 0xFE og 0xFF som aldri ble brukt i UTF-8-kodet tekst. Etter at denne begrensningen ble innført, økte antallet ubrukte byte i en UTF-8-strøm til 13: 0xC0, 0xC1 0g 0xF5-0xFF.