当前位置: 新豪天地登录网址 > www.3559.com > 正文

字符编码详解,你知道它是从哪儿来的么www.355

时间:2019-11-06 14:18来源:www.3559.com
大家为什么喜欢网络聊天、发生活圈和乐乎?起码笔者自身认为,超大学一年级些缘由是因为有种种表情符号、颜文字(Emoji),甚至国民民众下里巴人的表情包。在一个用0和1组成的数

大家为什么喜欢网络聊天、发生活圈和乐乎?起码笔者自身认为,超大学一年级些缘由是因为有种种表情符号、颜文字(Emoji),甚至国民民众下里巴人的表情包。在一个用0和1组成的数额世界,没有表情包根本不能促膝交谈拢么……

1,什么是字符编码?

      字符(Character)是各类文字和标记的总称,包蕴各个国家家文字、标点符号、图形符号、数字等。字符集(Character set)是八个字符的联谊,字符集体系超级多,每种字符集富含的字符个数分歧,不足为道字符集名称:ASCII字符集、GB2312字符集、BIG5字符集、 GB18030字符集、Unicode字符集等。计算机要可信的拍卖各个字符集文字,必要张开字符编码,以便计算机可以辨识和存款和储蓄种种文字。汉语文字数据大,何况还分为简体普通话和繁体普通话二种分化书写准绳的文字,而计算机最初是按保扩充哥洛美语单字节字符设计的,由此,对中文字符举行编码,是普通话新闻调换的本事底蕴。

www.3559.com 1图影片来源于:imgur.com

字符(Character)是文字与符号的总称,包括文字、图形符号、数学符号等。生机勃勃组抽象字符的汇集正是字符集(Charset)。字符集的面世是为着新闻进行传播积累提供方便。近期常用到字符集有:ASCII,ISO 8859-1,Unicode,GB2312

ASCII

实则,相当多网络特色的神情,反而传递了更加的多更活泼的情丝,进可战役,退可卖萌,实在是太好用了。(表情包有2、3个G、现实生活中的面部肌肉瘫痪,你们躺枪了么?卡塔尔国

3,各个编码集有啥特色?

名称由来

ASCII(American Standard Code for Information Interchange,美国音信互换规范编码卡塔 尔(英语:State of Qatar)是依附罗马字母表的生机勃勃套计算机编码系统。

特点

它至关心注重要用于体现今世英文和其他西欧言语。它是今后最通用的单字节编码系统,并长久以来国际规范ISO 646。

在表情包和表情符号诞生以前,我们必须要用字符来代表心态,于是有了广大虽说线条轻易、但却萌力爆表的字符表情(Emoticon,和Emoji不太肖似卡塔 尔(阿拉伯语:قطر‎,由精彩纷呈标或正规、或奇异的号子构成。那一个表情也一向保留到了明日,以至还时时被利用——但你通晓这个标识都来自哪里呢?

ASCII:

蕴含内容

调节字符:回车键、退格、换行键等。

可展现字符:英语大小写字符、阿拉伯数字和西方文字符号。

您的神气,也是别人的语言

(·д·),(ノ°д°)ノ,这么惊讶是在干什么?那些奇怪的“嘴”д,是西高雄字母(Kirillica卡塔 尔(阿拉伯语:قطر‎的一片段,读音是De。瑞典语、塞尔维亚(Република Србија卡塔尔国语、哈萨克Stan语,都用的是西哈特福德字母。

(=^ω^=),这几个圆圆的兔唇ω,假设把它单拿出来,大概过多个人也认识。它是阿尔巴尼亚语里面包车型客车“欧米茄”(Omega卡塔尔,希腊(Ελλάδα卡塔尔字母表里面包车型客车结尾叁个字母,物理里面用小写的它Ω表示电阻。而(°Δ°)惊悸脸里面包车型大巴三角形形Δ,念“德尔塔”(Delta,小写是δ卡塔 尔(英语:State of Qatar),初级中学数学里面是方程根的论断。

www.3559.com 2希腊共和国(The Republic of Greece卡塔 尔(英语:State of Qatar)字母表。图片来源于:Wikipedia

重重你感觉蹊跷的字符,实际上是其它的书写种类的风姿洒脱有的。我们所熟习的今世西方大部分言语都以用拉丁字母拼写的(有的带有些的特殊字符和变音符号,举例乌克兰语字母上边的“眼睛”卡塔 尔(英语:State of Qatar)。

要说的话,古老的塞尔维亚语然则拉丁字母和西南安普顿字母的“妈”。灿烂的古希腊语(Greece卡塔尔国文明孕育出了最先的数学和文学,而在文化艺术复兴现在的今世科学前进中,简洁又意蕴深远的希腊共和国字母也被无休止用作数学和物理中的符号,算是西方学术界的风姿洒脱种古板。

西埃里温字母用菲律宾语字母改写,得名于向斯拉夫蛮族们传教的贤淑西密尔沃基。那套字符通行于斯拉夫语族超越贰分之一言语,曾经苏维埃社会主义共和国结盟用它举行“民族语言退换”,更扩展了它的势力范围(例如哈萨克语归属突厥语系,也应用了西达曼字母卡塔尔国。

www.3559.com 3斯拉夫民族使用的西哈特福德字母表。图片来源于:Wikipedia

ASCII(American Standard Code for Information Interchange,U.S.A.音信沟通标准代码卡塔 尔(阿拉伯语:قطر‎是基于拉丁字母的风流倜傥套Computer编码系统。

带有内容:调整字符(回车,退格,换行键卡塔 尔(英语:State of Qatar),可展现式字符(日语大小写,阿拉伯数字和西方文字符号卡塔尔国。

能力特点:7位(bits卡塔尔表示多少个字符,共128字符

白璧微瑕:只好表示阿尔巴尼亚语,想西欧,东南亚和拉丁美洲地区的言语符号无法代表。

技巧特点

7位(bits卡塔尔表示二个字符,共128字符,字符值从0到127,此中32到126是可打字与印刷字符。

更古怪的语言符号

假使说西比勒陀利亚字母和希腊共和国(Ελληνική Δημοκρατία卡塔 尔(阿拉伯语:قطر‎字母还是能算混个脸熟,上面包车型地铁这一个标识,就有一些“是否特地为表情包设计的”狐疑了。

比如说(ღ˘⌣˘ღ),那真的不是桃心么?ლ(╹◡╹ლ),那实在不是手指么?其实,那是格鲁吉亚的文字“骑士体”,分别念做ghani和lasi,但却圆滚滚的萌萌的呢。格鲁吉亚文由她们的民族先祖创造,有人推断是学希腊(Ελλάδα卡塔尔文字而来,但原来之源却一直尚未下结论。最初的格鲁吉亚文出未来公元400多年,那套特种的文字和高加索山里的部族平等,具有古老而破例的历史。

www.3559.com 4(作者随手截图的卡塔尔格鲁吉亚文。图影片来源于:Wikipedia

(ง •_•)ง,那一个捏拳的架子,还或者有(ฅ• . •ฅ)的“爪子”,来自弯弯扭扭的泰文。这几个(ಥ_ಥ)流泪的怨念之眼,和(ಠ_ಠ卡塔尔国这几个皱眉的大双眼,来源是卡纳Dawen。那多少个奇特的文字系统,都出自二个大的文字系统之母——婆罗米文字。

www.3559.com 5印度共和国孔雀王朝的阿育王流传下的石刻上谕正是用婆罗米文写就的。图片来源于:Wikipedia

在公元前3-4世纪,攻下在India半岛的无敌的“孔雀王朝”使用的正是婆罗米文字,而这种文字派生出了多样文字系统,举个例子泰文、天城文(印地语使用的文字卡塔 尔(阿拉伯语:قطر‎、古吉拉特文、僧伽罗文、泰Mill文,以至还会有藏文,多流行于南亚和东东亚。

那一个风格各异的符号,我们能够心得一下……

www.3559.com 6有些婆罗米系文字的辅音。图片源于:Wikipedia

可是,要往上追溯的话,婆罗米文字是由豆蔻年华种古老的闪族文字“阿拉米文”衍变而来,阿拉米文跟腓Niki文血缘甚近,都出自原始的迦南字母;前边提到的拉丁、西库里蒂巴字母的妈希腊(Ελλάδα卡塔 尔(英语:State of Qatar)字母,也来源于腓Niki-迦南书写体系。晕了呢?一句话总括,上边现身的装有新奇的字符,都有贰个同等的上代。

www.3559.com 7上文中涉及的婆罗米文字,拉丁、西高雄字母,还应该有它们的妈希腊共和国(Ελληνική Δημοκρατία卡塔尔字母,都来自腓Niki-迦南书写系列。图片来自:Wikipedia

再有更稀奇的。ᕙ(˵ ಠ vಠ ˵)ᕗ这些中多个“举拳”的暗号,以致奔跑的小人ᕕ( ᐛ )ᕗ,实际上来自北美的八个原住民部落纳斯喀皮人(Naskapi卡塔尔,他们采纳文字的动向表示不一样的元音读音。神奇呢!

www.3559.com 8纳斯喀皮文字的读音。你找到ᐛ了吗?图片来源于:Wikipedia

ISO 8859-1:

增添字符集

7位编码的字符集只好扶植129个字符,为了表示更加的多的欧洲常用字符对ASCII实行了扩展,ASCII扩张字符集使用8位(bits卡塔 尔(阿拉伯语:قطر‎表示三个字符,共256字符。

ASCII扩大字符集:它是从ASCII字符集扩张出来的,扩大后的标志增添了报表符号、总括符号、希腊共和国字母和优异的拉丁符号。

太熟练的言语,反而读不懂……

既然大家的神色用了别人的言语,那人家的神气岂不是要用大家的?

道理当然是那样的啦!举个例子,在大不列颠及苏格兰联合王国的唐代姆观球的观众中,非常多的照片墙名都带着“父”字。

www.3559.com 9图形源于:推特(TWTR.US)

作者自身体高度深莫测,直到本身来看了他们的队徽……

www.3559.com 10果然是个自带爹的队徽啊……图片来源于:whufc.com

不单是歪果仁借用大家的暗号,中夏族民共和国网民们也在重定义着自己的文字。举个例子人民公众有口皆碑的“囧”,今后来看后头都会原则反射出一张“囧脸”,适逢其会读音又是“狼狈”的“窘”字,大致便是统筹的文字表情。

实际上,“囧”原意为美好,《说文解字》里解为“窻牖麗廔闓朙”,别看三个字都不认识,但都是与采光的窗子有关的,囧自身是个象形字。

www.3559.com 11“囧”字的小篆方式。是否少了生龙活虎部分囧感?图片来源:Wikipedia

若应当要说表情丰富的象形字,“观”字的钟鼓文和金文要更维妙维肖一些,瞪着大双眼警觉的即视感。

www.3559.com 12左侧第叁个字就是金文的“观”,整幅字是“听鸟观鱼”。图片源于:微博网络亲密的朋友“风之行”博客

实际那也未曾怎么值得奇异的,不正是野蛮象形嘛。汉字天生就有广大象形字,被鬼子拿去那是再平常可是。举例,

( ^_^)o自自o(^_^ ) 代表碰杯,

(╬ ಠ益ಠ) 代表非常厌烦,

ヽ(o`皿′o)ノ表示愤怒,

凸(`0´)凸代表竖中指,

川´・ω・`川 代表熊(的毛),

(个_个) 代表眼睛,

((( ̄へ ̄井)意味着不爽,

♪(((#^-^)八(^_^*)))♪ 代表high five,

(〃’▽’)_中☆{{{Д}}} 代表拿锤子敲,

(oT-T)尸 代表举白旗,如此等等……

等等,这怎么看起来如此别扭啊。

别扭就对了!因为你已经知道那一个字的“含义”,那些意义和它的外形存在了冲突。

实践心境学有一个经文成果叫“斯特Rupp效应”,描述的就就是相同那样的风貌。心绪学家约翰·斯特鲁普在纸上涂上三种颜色的学问,让被试把颜色念出来。分化是,第风华正茂组里的学术组成了表示颜色的单词,何况还和学术的颜色不相近;第二组里墨水正是方框框。

就疑似这么:

红 黄 蓝 绿

■   ■   ■   ■

是还是不是很麻烦?是或不是见到第三个字总是牵记“红”而无法健康地念出墨水的水彩“绿”?斯特Rupp发现被试要花相当久本领成功念出第大器晚成组的学问颜色,而第二组未有困难。反过来,假如让被试念出字本身的原委,那么用哪些墨水就无动于衷了。看起来,当大家涉猎一个字的时候,它的意思是“优先”的;大家会先活动读出它的意义,然后才想起来实验师的渴求,努力把它纠回去。

笔者们作为普通话母语使用者,阅读中文表情文字碰着的便是这般的难题。当然,倘使你频仍地瞅着那些表情文字,稳步地它们就像又变得健康了。“语义饱和”在个中发挥了效劳——反复想三个单词会让它成为浮泛的笔画组合,而在表情文字里这么无独有偶能让大家识别出它的象形含义。(关于语义饱和,能够参见果壳问答: 为什么一时候看见二个汉字时间长了,会以为不认得那么些字呢?)

ISO 8859-1,正式编号为ISO/IEC 8859-1:1999,又称Latin-1或“西欧语言”,是国标化组织内ISO/IEC 8859的率先个8位字符集。

它以ASCII为根基,在空置的0xA0-0xFF的限制内,参加九十八个字母及符号,藉以供役使附加符号的拉丁字母语言应用。曾推出过 ISO 8859-1:一九八八 版。

富含内容:ASCII编码包蕴的,部分西欧使用的语言。

技能特点:8位代表贰个字符。

GB2312

从ASCII到Unicode的音讯演变史

好了,讲罢了文字,大家再来讲表情符号的另二个第意气风发根源:特殊符号。

前风流罗曼蒂克阵子相当的火的(╯‵□′)╯︵┴─┴掀桌表情(对,假设您用的是搜狗输入法,输入“掀桌”二字就可以现身卡塔 尔(阿拉伯语:قطر‎。那么些“桌”,实际上就是特殊符号的后生可畏种——表格符号。在稍稍有个别时间的DOS系统里头,大家只可以使用纯文本,那么蒙受图和表格如何做呢?于是,大家参与了某个特殊符号来满意那几个必要。

而是往哪个地区加那个标识呢?

一早先,大家在Computer上用的是大器晚成套叫做ASCII(读作“阿斯克”,American Standard Code for Information Interchange,U.S.A.消息置换规范代码卡塔 尔(英语:State of Qatar)的编码系统,首要用来展现保加列阿尔巴尼亚语和常用的标点,于1967年公布、一九九零年改进,生机勃勃共独有130个字符(在那之中有九十二个是能够来得的,剩下的都以“调整符”卡塔尔,算上海高校小写、数字和标点,基本也正是你的键盘上有什么正是怎么着了。

www.3559.com 13纵然如此,用ASCII也能搞艺术……都以大触啊!图片来源:larc.unt.edu

于是啊,开始的风度翩翩段时代大家拉家常的神气,笑颜都是“:)”那样的。上古互连网小说《第一遍的心照不宣接触》里面,矮穷矬二号然而能够对着那样三个微笑符号yy好久的。

可是ASCII的126个字符断定是远远不够用的,别说表情了,你令人家打个naïve都无法点上“很天真”的多少个点,很优伤是啊,亚洲的各个国家程序猿更是不能够忍,于是他们在ASCII的底工上,制定了扩张版的ESCII,将原本的7位扩张为8位,空间一下子从128调升到了256。不过出于做扩大ASCII的人太多,标准并不相配,关键时刻照旧乱码一片。

享誉的IBM代码页437(Code page 437卡塔尔国,是相比较流行的扩充ASCII编码系统之风流浪漫,也是MS-DOS使用的字符编码。可以见见,此时就早就有前方提到的报表符号了,别的还可能有一点都不小多学符号、货币符号——对表情包工作也是震天动地的孝敬啊!

www.3559.com 14代码页437从1二十几个人到256人的字符编码。图片来自:utopia.knoware.nl

其实不单是这几个标志,前边空出来的“调节符”区域,其实被部分系统暗戳戳地规定成了“极度图像字元”。里面藏了黑白四个笑貌呢!那大约正是“官方表情包”了?但……其实无须各个系统都采纳了那么些字符,并不能够算是标准。

www.3559.com 15来看左上角的8比特笑貌了啊?图片源于:Wikipedia

Anyway,随着消息职业增到世界外地,多少个越来越大、更包容的编码系统从趋势看必须行动,那就是Unicode(万国码卡塔 尔(英语:State of Qatar),一九九三年行业内部表露的编码标准,从8位生机勃勃眨眼升高到了13位,一口气把前边提及那多少个奇古怪怪的言语字符都满含进来了。最关键的是,全部的简体和繁体汉语也在这里个类别里!(中国和日本韩的汉字是壹玖玖叁年加进去的卡塔 尔(英语:State of Qatar)

现今停止,Unicode已经揭橥到了8.0版,大器晚成共120,7肆拾个字符。表情包的花头也跟着指数级上升,玩的方法被脑洞大开的世界各州网上朋友不停翻新。

譬喻前生机勃勃阵子流行的所谓“Lenny face”,( ͡° ͜ʖ ͡°),这几个和doge有一点点不谋而合的残暴表情,“眉毛”和“嘴”其实是“双弱音符”(Double Breve卡塔尔,和其它字符结合现身,并不是二个独门的字符。这种玩的方法也布满于多少个意大利语的上标字符不断叠加成“搭楼”的成效,是二个意味。这么些都以在Unicode编码系统内完结的。

任何的哪些太阳☀花草❀✿桃心❤萌萌大两眼◕v◕(其实是五分一卡塔 尔(阿拉伯语:قطر‎之类,也都以Unicode编码系统里头的字符啦。而且,最新的Unicode 8.0里头,也内嵌了表情字符喔。但借使系统版本差别盟的话,这这几个都会计统计统形成方块,一点也不萌了。

www.3559.com 16图影片来源于:Wikipedia

一言以蔽之,表情符号从不小程度上,是我们对于符号的再次赋意,也便是生龙活虎种接纳既有工具和剧情的再次创下立了。相当多也是从小圈子里面传出去的,比如出名的2chan和Reddit。纵然今后各样软件系统内部都用Logo定义了真正的“颜文字”,但我们如故心爱于用本身的脑补功力,在精简的线条和符号里制作生动的神采。

你们还闲着干啥?还不尽快晒一下你最得意的神情……(编辑:Stellasun卡塔 尔(英语:State of Qatar)

 

Unicode:

名称由来

GB2312又称为GB2312-80字符集,全称为《音信置换用汉字编码字符集·基本集》,由原中国国标总部颁发,壹玖捌贰年七月1日试行。

Unicode字符集编码是Universal Multiple-Octet Coded Character Set 通用多伍个人编码字符集的简单称谓,是由一个名叫 Unicode 学术学会(Unicode Consortium)的机构制订的字符编码系统,支持现今世界种种不一致语言的书面文件的置换、管理及展现。该编码于一九八四年上马研发,1993年正规发表,最新版本是二零零六年1月三日的Unicode 4.1.0。

技巧特色:13人编码,各种字符占用2个字节。一个字符的Unicode编码是规定的。可是在实质上传输过程中,由于差异体系平台的安排不自然黄金时代致,以至由于节省空间的指标,对Unicode编码的兑现方式有所不相同。Unicode的得以达成格局叫做Unicode转变格式(Unicode Transformation Format,简单称谓为UTF卡塔 尔(阿拉伯语:قطر‎。要是八个7位的ASCII字符的Unicode文件,在传输进程中只要利用2个字节的原Unicode编码传输会招致一点都不小的浪费。对于这种气象,能够动用UTF-8编码,那是风姿罗曼蒂克种变长编码,它将着力7位ASCII字符仍用7位编码表示,占用三个字节(第4位补0卡塔 尔(阿拉伯语:قطر‎。而碰着与任何Unicode字符混合的场馆,将按一定算法调换,各类字符使用1-3个字节编码,并采纳第1位为0或1进展甄别。

特点

GB2312是中国国标的简体普通话字符集。它所援引的汉字已经覆盖99.四分之三的运用功效,基本满意了汉字的微管理机处理须求。在中华次大陆和新加坡获遍布使用。

GB2312:

含蓄内容

GB2312收音和录音简化汉字及日常符号、序号、数字、拉丁字母、葡萄牙语假名、希腊(Ελλάδα卡塔 尔(英语:State of Qatar)字母、英文字母、粤语拼音符号、中文注音字母,共 74四十五个图形字符。在那之中囊括67陆十三个汉字,当中一流汉字37伍拾叁个,二级汉字3008个;涵Gaila丁字母、希腊共和国(Ελληνική Δημοκρατία卡塔 尔(英语:State of Qatar)字母、西班牙语平假名及片假名字母、塞尔维亚语西高雄字母在内的682个全角字符。

GB 2312 或 GB 2312-80 是中夏族民共和国国标简体粤语字符集,全称《音信置换用汉字编码字符集·基本集》,又称GB0,由中中原人民共和国国家标准根据地颁发,1982年3月1日实行。GB2312编码通行于中华夏族民共和国陆上;新加坡共和国等地也利用此编码。中中原人民共和国次大陆差不离具备的中国语言艺术学系统和国际化的软件都协助GB 2312。

含蓄内容:67六15个汉字,当中拔尖汉字37五11个,二级汉字3008个;同临时候收音和录音了回顾拉丁字母、希腊语(Greece卡塔 尔(英语:State of Qatar)字母、西班牙语平假名及片假名字母、英文西利马Saul字母在内的6八十一个字符。

能力特点:每种汉字及符号以四个字节来代表。第二个字节称为“高位字节”,第4个字节称为“低位字节”。“高位字节”使用了0xA1-0xF7,“低位字节”使用了0xA1-0xFE0xA0卡塔尔。 由于超级汉字从16区开局,汉字区的“高位字节”的限量是0xB0-0xF7,“低位字节”的限量是0xA1-0xFE,占用的码位是72*94=6768。在那之中有5个空位是D7FA-D7FE。

本领特点

(1卡塔尔分区表示:

GB231第22中学对所收汉字实行了“分区”管理,每区含有九十几个汉字/符号。这种代表方法也称为区位码。

各个地区满含的字符如下:01-09区为特殊符号;16-55区为一级汉字,按拼音排序;56-87区为二级汉字,按部首/笔画排序;10-15区及88-94区则未有编码。

(2)双字节表示

两个字节中前面包车型大巴字节为第一字节,前面包车型地铁字节为第二字节。习于旧贯上称第风流浪漫字节为“高字节” ,而称第二字节为“低字节”。

“高位字节”使用了0xA1-0xF7(把01-87区的区号加上0xA0),“低位字节”使用了0xA1-0xFE(把01-94加上0xA0)。

编码比如

以GB2312字符集的第三个汉字“啊”字为例,它的区号16,位号01,则区位码是1601,在超越陆分之生龙活虎计算机程序中,高字节和低字节分别加0xA0获得程序的方块字管理编码0xB0A1。总计公式是:0xB0=0xA0 16, 0xA1=0xA0 1。

BIG5

名称由来

又称大五码或中国共产党第五次全国代表大会码,壹玖捌贰年由台湾财团法人新闻工业策进会和五家软件商厦ASUS(Alienware)、神通 (MiTAC)、佳佳、零壹 (Zero One)、大众 (FIC)成立,故称大五码。

Big5码的产生,是因为立即台湾区别商家各自推出区别的编码,如倚天码、IBM PS55、王安码等,互相不可能协作;其他方面,四川政党立即尚无推出官方的汉字编码,而中国陆地的GB2312编码亦未有收音和录音繁体中文字。

特点

Big5字符集共收录13,052个汉语字,该字符集在中国台湾使用。莺舌百啭的是该字符集重复地采取了几个相符的字:“兀”(0x雷凌61及0xC94A)、“嗀”(0xDCD1及0xDDFC)。

编码方法

Big5码使用了双字节积攒方法,以多个字节来编码三个字。第三个字节名字为“高位字节”,首个字节称为“低位字节”。高位字节的编码范围0xA1-0xF9,低位字节的编码范围0x40-0x7E及0xA1-0xFE。

各编码范围对应的字符类型如下:0xA140-0xA3BF为标点符号、希腊共和国字母及特殊符号,别的于0xA259-0xA261,存放了双音节衡量衡单位用字:兙兛兞兝兡兣嗧瓩糎;0x玛驰40-0xC67E为常用汉字,先按笔划再按部首排序;0xC940-0xF9D5为次常用汉字,亦是先按笔划再按部首排序。

局限性

固然Big5码内包罗黄金年代万多少个字符,可是从未思索社会上流通的真名、地名用字、方言用字、化学及生物科等用字,未有包涵俄文平假名及片假名字母。

例如台湾视“着”为“著”的异体字,故并未援用“着”字。康熙帝字典中的一些部首用字(如“亠”、“疒”、“辵”、“癶”等)、千千万万的人名用字(如“堃”、“煊”、“栢”、“喆”等) 也从不接纳到Big5里头。

GB18030

名称由来

GB 18030的完备是GB18030-二零零三《音信交流用汉字编码字符集基本集的扩张》,是本国政坛于2001年2月二十八日宣布的新的汉字编码国标,二〇〇三年1月二一日后在神州市镇上发布的软件必须切合本专门的工作。

特点

GB 18030字符集标准的出台经过广大出席和论证,

www.3559.com 17GB18030 字符集

来源国内外名牌新闻本领行当的信用合作社,音信行当部和原国家品质技术监督局同步奉行。

GB 18030字符集标准解决汉字、乌克兰语假名、爱沙尼亚语和中华少数民族文字组成的大字符集微处理器编码主题素材。该标准的字符总编辑码空间超越150万个编码位,收音和录音了274捌十五个汉字,覆盖粤语、克罗地亚语、丹麦语和神州少数民族文字。满意中华夏族民共和国陆地、香港、台湾、日本和高丽国等东亚地点新闻调换多文子禽、大字量、多用途、统一编码格式的渴求。并且与Unicode 3.0版本宽容,增加补充Unicode扩充字符字汇“统生龙活虎汉字增加A”的内容。何况与原先的国家字符编码标准(GB2312,GB13000.1)兼容。

编码方法

GB 18030标准使用单字节、双字节和四字节二种方法对字符编码。单字节局地使用0×00至0×7F码(对应于ASCII码的相应码)。双字节一些,首字节码从0×81至0×FE,尾字节码位分别是0×40至0×7E和0×80至0×FE。四字节后生可畏对应用GB/T 11383未接纳的0×30到0×39作为对双字节编码扩展的后缀,那样扩充的四字节编码,其范围为0×81308130到0×FE39FE39。个中第风姿浪漫、五个字节编码码位均为0×81至0×FE,第二、多少个字节编码码位均为0×30至0×39。

包蕴内容

双字节有的收音和录音内容器重回顾GB13000.1整整CJK汉字20902个、有关标点符号、表意文字描述符拾贰个、增加补充的汉字和部首/零部件柒十九个、双字节编码的英镑符号等。 四字节局地收音和录音了上述双字节字符之外的,富含CJK统生机勃勃汉字扩大A在内的GB 13000.第11中学的整体字符。

Unicode

名称由来

Unicode字符集编码是Universal Multiple-Octet Coded Character Set 通用多五个人编码字符集的简单的称呼,是由三个名称为 Unicode 学术学会(Unicode Consortium)的机构制定的字符编码系统,援救现现代界各类分裂语言的封面文件的交换、管理及呈现。该编码于一九九零年早先研究开发,一九九八年正式发布,最新版本是二零一一年四月31日的Unicode 6.1。

特征

Unicode是黄金年代种在微处理机上运用的字符编码。它为每个语言中的每一个字符设定了联合并且唯大器晚成的二进制编码,以满足跨语言、跨平台举行理文件本调换、管理的渴求。

编码方法

Unicode 规范一贯使用十五进制数字,并且在书写时在后面加上前缀“U ”,举个例子字母“A”的编码为 004116 和字符“?”的编码为 20AC16。所以“A”的编码书写为“U 0041”。

UTF-8 编码

UTF-8是Unicode的里边贰个使用方法。 UTF是 Unicode Tranformation Format,即把Unicode转做某种格式的情趣。

UTF-8便于区别的微处理机之间利用互连网传输现在不是过去能比得上语言和编码的文字,使得双字节的Unicode能够在现有的管理单字节的连串上正确传输。

UTF-8使用可变长度字节来积存Unicode字符,比方ASCII字母继续选用1字节囤积,重音文字、希腊共和国(The Republic of Greece卡塔尔国字母或西拉巴斯字母等利用2字节来囤积,而常用的汉字就要选取3字节。协理平面字符则采取4字节。

UTF-8(8-bit Unicode Transformation Format卡塔 尔(英语:State of Qatar)是意气风发种针对Unicode的可变长度字符编码,又称万国码。由Ken 汤普森于壹玖玖壹年创办。今后早已正式化为TiguanFC 3629。UTF-8用1到6个字节编码UNICODE字符。用在网页上得以同意气风发页面呈现华语简体复杂及其他语言(如英文,日文,韩文)。

比较

UTF-16 和 UTF-32 编码

UTF-32、UTF-16和 UTF-8 是 Unicode 标准的编码字符集的字符编码方案,UTF-16 使用一个或七个未分配的 16 位代码单元的连串对 Unicode 代码点举办编码;UTF-32 将要每叁个 Unicode 代码点表示为肖似值的 32人整数。

编辑:www.3559.com 本文来源:字符编码详解,你知道它是从哪儿来的么www.355

关键词: www.3559.com