Kompyuta, Programu

UTF-8 - tabia encoding

Unicode inasaidia karibu wote wa sasa seti tabia. namna bora ya usimbaji Unicode seti tabia ni UTF-8 encoding. Ni inasaidia utangamano na ASCII, upinzani dhidi ya uharibifu wa data, ufanisi na urahisi wa usindikaji. Lakini mambo ya kwanza.

coding aina

Kompyuta kazi si tu kama idadi dhahania vitu hisabati, pamoja na mchanganyiko wa vipande ya uhifadhi na utunzaji data fasta-size - Byte na maneno 32-bit. Mwandiko kiwango lazima kuchukua katika akaunti wakati wa kuamua jinsi ya kuwasilisha idadi ya herufi.

Katika mifumo ya kompyuta, nambari halisi kuhifadhiwa katika seli za kumbukumbu ya 8 bits (1 baiti), 16 au 32 bits. Kila aina amefafanua usimbaji wa Unicode, ambayo mlolongo wa seli za kumbukumbu ni integer sambamba na ishara fulani. Katika kiwango kuna aina tatu tofauti ya coding Unicode wahusika 8, 16 na 32-bit vitalu. Kwa hiyo, ni inayojulikana kama UTF-8, UTF-16 na UTF-32. Jina UTF anasimama kwa Unicode mabadiliko Format. Kila moja ya aina tatu ya usimbaji njia ni sawa uwakilishi Unicode tabia ina faida katika programu mbalimbali.

Data encryption inaweza kutumika kuwakilisha wahusika wote katika kiwango Unicode. Hivyo, wao ni kikamilifu sambamba na ufumbuzi kwa sababu mbalimbali, kwa kutumia njia tofauti za coding. Kila coding wanaweza unambiguously kuwa waongofu katika yoyote ya wengine wawili bila kupoteza data.

nenalozheniya kanuni

Kila moja ya aina Unicode encoding maendeleo katika mtazamo wa mashirika sehemu kuingiliana. Kwa mfano, Windows-932 aina wahusika wa ka moja au mbili ya code. mlolongo urefu inategemea Byte kwanza, ili inayoongoza Byte maadili katika mfululizo wa mbili-Byte na moja byte disjoint. Hata hivyo, thamani ya byte moja na alama mfululizo Byte mlolongo inaweza sanjari. Hii ina maana kwa mfano kwamba tabia search D (code 44) wanaweza kupata hiyo kwa makosa kuingia katika sehemu ya pili ya mfululizo wa wawili-Byte tabia "D" (code 84 44). Ili kujua ni mlolongo ni sahihi, mpango lazima kuzingatia ka uliopita.

hali ni ngumu, kama kuongoza na trailing ka mechi. Hii ina maana kwamba ili kuondoa utata itakuwa chaguo-reverse kabla ya kufikia mwanzo wa maandishi au kipekee code mlolongo. Hii si tu ufanisi, lakini si ya ulinzi kutokana na makosa iwezekanavyo, kwa kuwa moja tu makosa Byte kwa maandishi kamili imekuwa kusomeka.

Format kubadilika Unicode avoids tatizo hili kwa sababu thamani ya kuongoza, trailing, na kitengo moja ya hifadhi si taarifa hiyo. Huu kuhakikisha kwamba wote Unicode kwa kutafuta na kulinganisha, kamwe kutoa matokeo makosa kutokana na bahati mbaya ya sehemu mbalimbali za kificho herufi. ukweli kwamba aina hizi ya coding kuchunguza nenalozheniya kanuni, tofauti kati yao na wengine Asia ya Mashariki Usimbaji mbalimbali byte.

Kipengele kingine nonintersection Unicode Usimbaji ni kwamba tabia ya kila ina mpaka wazi. Hii hupunguza haja kwa Scan usiojulikana idadi ya alama ya awali. Kipengele hiki wakati mwingine inaitwa binafsi clocking usimbaji. Uharibifu wa vitengo code itaanzisha kuvuruga tabia moja tu, na wahusika jirani bado ni imara. Katika uongofu 8-bit format, kama pointer pointi kwa byte, kuanzia na 10xxxxxx (katika kanuni binary) ili kupata kuanza kwa ishara inahitajika kwa moja kwa tatu mabadiliko kinyume.

uthabiti

Unicode Consortium mkono kikamilifu aina zote 3 za Usimbaji. Ni muhimu kupinga UTF-8 na Unicode, kama muundo wote kubadilika - sawa halali aina ya mfano halisi wa Unicode-encoding tabia ya kiwango.

Byte-Mwelekeo

Kuiwakilisha wahusika UTF-32 unahitaji 32-bit code kitengo, ambayo sanjari na kanuni Unicode. UTF-16 - moja kwa vitengo viwili 16-bit. UTF-8 inatumia hadi 4 ka.

UTF-8 encoding imeundwa kuwa sambamba na mifumo byte-oriented ASCII-msingi. Wengi wa programu zilizopo na mazoezi ya teknolojia ya habari kwa muda mrefu kutegemewa uwakilishi wa herufi katika mpangilio wa ka. itifaki nyingi inategemea uthabiti wa encoding ASCII na anatumia ama unaepuka herufi maalum kudhibiti. njia rahisi ya kukabiliana na hali Unicode unaweza, kwa kutumia 8-bit coding kuwakilisha majina ya wahusika Unicode, yoyote sawa ASCII tabia ama tabia kudhibiti. Hadi mwisho huu, na ni UTF-8 encoding.

variable urefu

UTF-8 - coding ya urefu variable, ambayo ina rakaa kuhifadhi 8-kidogo, bits ya juu ambazo zinaonyesha ambayo ni sehemu ya mlolongo wa kila byte mtu binafsi ni mali. Moja ya thamani za kura kwa kipengele kwanza ya mlolongo code, mwingine - kwa ajili ya pili. Hii inatoa disjointness usimbaji.

ASCII

codes UTF-8 encoding mkono kikamilifu ASCII (0x00-0x7F). Hii ina maana kwamba wahusika Unicode U + 0000-U + 007F ni waongofu katika moja Byte 0x00-0x7F UTF-8 na hivyo kuwa kutofautishwa kutoka ASCII. Aidha, ili kuepuka utata, thamani 0x00-0x7F haitumiki tena katika moja Byte uwakilishi wa wahusika Unicode. Kwa encode alama neideograficheskih zaidi ASCII, kwa kutumia utaratibu wa ka mbili. Alama mbalimbali U + 0800-U + FFFF zinawakilishwa na ka tatu, na codes ziada na zaidi ya U + FFFF zinahitaji ka nne.

nyanja ya maombi

UTF-8 encoding kawaida hupewa upendeleo katika itifaki HTML, na kadhalika.

XML imekuwa standard ya kwanza na msaada kamili kwa UTF-8 encoding. Mashirika Viwango pia kupendekeza. Support tatizo katika anwani URL kwamba ni tofauti na ASCII-wahusika, mara kutatuliwa wakati muungano W3C na IETF uhandisi kundi alikuja na makubaliano juu ya coding ya yote anwani URL peke yake katika UTF-8.

Utangamano na ASCII kuwezesha mpito kwa programu mpya. Pamoja na UTF-8 kazi ya wahariri wa maandishi, ikiwa ni pamoja na JEdit, Emacs, BBEdit, Eclipse, na "Notepad" Windows mfumo wa uendeshaji. Hakuna aina nyingine ya encoding Unicode hawezi kujivunia msaada hayo ya zana.

coding Faida ni kwamba lina ya mfululizo wa ka. Pamoja na UTF-8 kamba ni rahisi kufanya kazi katika C na lugha nyingine ya programu. Hii ni aina tu ya encoding, ili hauhitaji maandiko ka BOM au tamko encoding katika XML.

binafsi usawazishaji

Katika mazingira ambayo inatumia alama 8-bit ya usindikaji ikilinganishwa na seti nyingine mbalimbali byte tabia, UTF-8 ina faida zifuatazo:

kwanza byte code mlolongo ina taarifa juu ya urefu wake. Hii inaongeza ufanisi wa tafuta moja kwa moja.
Kilichorahisishwa kutafuta mwanzo wa ishara kama sehemu ya kuanzia Byte ni mdogo mbalimbali za kudumu za maadili.
Hakuna makutano Byte maadili.

kulinganisha faida

UTF-8 encoding ni thabiti. Lakini wakati kutumika kwa usimbaji East wahusika Asia (China, Japan, Korea, kuandika Kichina kutumia ishara) alitumia Utaratibu 3-Byte. Pia UTF-8 encoding ni duni kwa aina nyingine ya coding usindikaji kasi. binary kupanga mistari inazalisha matokeo sawa na binary kupanga Unicode.

mpango tabia encoding

mpango tabia encoding inajumuisha encoding alama fomu na mbinu kwa ajili ya single Byte vitengo eneo code. Kuamua mpango encoding Unicode kiwango hutoa matumizi ya awali byte ili alama (Bom, Byte ili alama).

Wakati BOM katika UTF-8 kipengele tag ni mdogo tu na kumbukumbu ya matumizi ya aina ya coding. Matatizo katika kuamua endian UTF-8 na, kama yake encoding kitengo ukubwa ni byte moja. Kwa kutumia BOM kwa aina hii ya coding ya kitu wala required wala iliyopendekezwa. BOM yanaweza kutokea katika maandishi ya kubadili kutoka codings nyingine kwa kutumia Byte ili alama au sahihi kwa UTF-8 encoding. Je mlolongo wa 3 ka EF BB ₁₆ ₁₆ BF _16.

Jinsi ya kuanzisha UTF-8 encoding

HTML coding UTF-8 imewekwa na nambari zifuatazo:

kichwa

Meta http-equiv = "Content-Type" content = "text / html, seti si = utf-8" ˃

Katika PHP UTF-8 encoding ni kuweka kutumia header () kazi katika mwanzo wa faili baada ya kuweka na makosa ya pato kiwango thamani:

˂? Php

error_reporting (-1);

header ( "Maudhui-Aina maandishi / html, seti si = utf-8 ');

Kuungana na database MySQL UTF-8 encoding ni kuweka:

˂? Php

mysql_set_charset ( 'utf8');

CSS faili encoding ni herufi UTF-8 imebainishwa kama ifuatavyo:

@charset "UTF-8",

Unapohifadhi faili za aina zote kuchagua UTF-8 encoding bila BOM, vinginevyo tovuti haitafanya kazi. Kwa kufanya hivyo katika DreamWeave unahitaji kuchagua menu "Marekebisho - Ukurasa Properties - Kichwa / Usimbaji" na mabadiliko ya encoding kwa UTF-8. Ikifuatiwa na kupakia upya ukurasa, kuondoa alama ya kuangalia kutoka "Connect Unicode sahihi (Bom)» na kuomba mabadiliko. Kama maandishi yoyote kwenye ukurasa au katika database kuletwa aina nyingine ya coding, ni muhimu kuingiza tena au re-encode. Wakati kazi na maneno ya kawaida, kuwa na uhakika wa kutumia modifier u.

Unaweza pia kuokoa faili katika UTF-8 encoding katika "Notepad" ya Windows. Baada ya kuchagua menu "File - Ila Kama ..." kufunga aina muhimu ya encoding na kuokoa faili katika UTF-8.

Katika nakala mhariri Notepad ++, kama imewekwa badala UTF-8, kupitia orodha ya bidhaa "Convert kwa UTF-8 bila BOM» kubadilisha tabia na kuokoa katika UTF-8.

hakuna mbadala

Katika mazingira ya utandawazi, ambapo mipaka ya kisiasa na ya lugha hufutika, tabia seti iliyo bora na tabia ya ndani, ni ya matumizi kidogo. Unicode ni single tabia ya kuweka ambayo inasaidia localizations wote. UTF-8 - mfano wa utekelezaji mzuri wa Unicode, ambayo ni:

Ni inasaidia mbalimbali ya zana, ikiwa ni pamoja na utangamano encoding ASCII;
Ni sugu kwa data kuvuruga;
rahisi na ufanisi katika matibabu,
ni jukwaa huru.

Pamoja na ujio wa UTF-8 mjadala juu ya nini aina ya encoding au tabia ya kuweka ni bora, inakuwa maana.

Kompyuta, Programu

UTF-8 - tabia encoding

coding aina

nenalozheniya kanuni

uthabiti

Byte-Mwelekeo

variable urefu

ASCII

nyanja ya maombi

binafsi usawazishaji

kulinganisha faida

mpango tabia encoding

Jinsi ya kuanzisha UTF-8 encoding

hakuna mbadala

Similar articles

Kompyuta

Kompyuta

Kompyuta

Kompyuta

Kompyuta

Kompyuta

Trending Now

Maendeleo ya Kiroho

Uhusiano

Habari na Society

Vyakula na vinywaji

Nyumbani na Family

Nyumbani na Familia

Newest

Habari na Society

Sanaa na Burudani

Malezi

Safari

Afya

Habari na Society