Redigerer
UTF-8
(avsnitt)
Hopp til navigering
Hopp til søk
Advarsel:
Du er ikke innlogget. IP-adressen din vil bli vist offentlig om du redigerer. Hvis du
logger inn
eller
oppretter en konto
vil redigeringene dine tilskrives brukernavnet ditt, og du vil få flere andre fordeler.
Antispamsjekk.
Ikke
fyll inn dette feltet!
== Beskrivelse == UTF-8 er for tiden standardisert i [[RFC]] 3629 og er et av flere tegnkodeformater i [[ISO/IEC 10646]]''. [[Bit]]ene i et Unicode-tegn er delt inn i flere grupper. Tegn nummerert under 128 blir kodet med en enkelt byte som inneholder deres posisjon: Disse samsvarer nøyaktig med de 128 7-biters [[ASCII]]-tegnene. Til andre tegn brukes opp til fire byte. Den første biten i disse blir alltid satt til 1, for å skille tegnene fra 7-bits ASCII-tegn. De første 128 tegnene (0-127) av Unicode er de samme som ISO-8859-1, så det er enkelt å konvertere mellom disse tegnsettene. Tegnene med nummer 128 – 255, deriblant Æ, Ø, Å, æ,ø og å, blir 2 bytes i UTF-8. {| style="border-collapse: collapse;" border="1" |----- | Område<br />[[heksadesimal]] || UTF-8<br />[[binære tall|binær]] | Merknader |----- | 000000 - 00007F || 0xxxxxxx | ASCII-ekvivalent; første bit begynner med null |----- | 000080 - 0007FF || 110xxxxx 10xxxxxx | rowspan="3" align="top" | de 2 første bits begynner med 11, de neste begynner med 10 |----- | 000800 - 00FFFF | 1110xxxx 10xxxxxx 10xxxxxx |----- | 010000 - 10FFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx |} For eksempel, den hebraiske bokstaven ''[[alef]]'' (א), som er Unicode-tegn U+05D0, blir kodet i UTF-8 på denne måten: * Det faller innunder området U+0080 til U+07FF. Tabellen viser at det vil bli kodet med to byte, ''110''xxxxx ''10''xxxxxx. * 0x05D0 i [[heksadesimal]] er det samme som 101-1101-0000 i [[binære tall]]. * De elleve bitene blir plassert i posisjonene markert av tegnet "x": ''110''10111 ''10''010000. * Resultatet blir to byte, som kan uttrykkes som 0xD7 0x90 i heksadesimal. Det er bokstaven alef i UTF-8. De første 128 tegnene behøver dermed en byte. De neste 1920 tegnene kodes med to byte. Dette inkluderer en rekke europeiske tegn (deriblant de skandinaviske), samt [[Gresk alfabet|greske]], [[Kyrillisk alfabet|kyrilliske]], [[koptisk alfabet|koptiske]], [[armensk alfabet|armenske]], [[hebraisk alfabet|hebraiske]] og [[arabisk alfabet|arabiske]] tegn. De øvrige tegnene bruker tre eller fire byte. (En tidligere UTF-8-standard tillot at enda høyere posisjoner kunne representeres ved å gjøre bruk av fem eller seks byte, men dette støttes ikke lenger.) Faktisk kan lengden på UTF-8-sekvenser være opp til seks byte, noe som dekker området U+0000 til U+7FFFFFFF (31 bit). Dette er mer enn det definerte Unicode-området, men UTF-8 ble i november [[2003]] begrenset av [https://web.archive.org/web/20050317090404/http://www.ietf.org/rfc/rfc3629.txt RFC 3629] til å bare representere området dekket av den formelle Unicode-definisjonen, U+0000 til U+10FFFF, som er området [[UTF-16]] kan representere. Før dette var det bare bytene 0xFE og 0xFF som aldri ble brukt i UTF-8-kodet tekst. Etter at denne begrensningen ble innført, økte antallet ubrukte byte i en UTF-8-strøm til 13: 0xC0, 0xC1 0g 0xF5-0xFF.
Redigeringsforklaring:
Merk at alle bidrag til Wikisida.no anses som frigitt under Creative Commons Navngivelse-DelPåSammeVilkår (se
Wikisida.no:Opphavsrett
for detaljer). Om du ikke vil at ditt materiale skal kunne redigeres og distribueres fritt må du ikke lagre det her.
Du lover oss også at du har skrevet teksten selv, eller kopiert den fra en kilde i offentlig eie eller en annen fri ressurs.
Ikke lagre opphavsrettsbeskyttet materiale uten tillatelse!
Avbryt
Redigeringshjelp
(åpnes i et nytt vindu)
Navigasjonsmeny
Personlige verktøy
Ikke logget inn
Brukerdiskusjon
Bidrag
Opprett konto
Logg inn
Navnerom
Side
Diskusjon
norsk bokmål
Visninger
Les
Rediger
Rediger kilde
Vis historikk
Mer
Navigasjon
Forside
Siste endringer
Tilfeldig side
Hjelp til MediaWiki
Verktøy
Lenker hit
Relaterte endringer
Spesialsider
Sideinformasjon