中日韩统一表意文字

本页使用了标题或全文手工转换,现处于中国大陆简体模式
求闻百科,共笔求闻

中日韩统一表意文字(英语:CJK Unified Ideographs),也称统一汉字统汉码(英语:Unihan),目的是要把分别来自中文日文韩文越南文壮文琉球文中,起源相同、本义相同、形状一样或稍异的表意文字,在ISO 10646Unicode标准赋予相同编码

所谓“起源相同、本义相同”、主要是汉字,包括繁体字简化字日本汉字漢字かんじ)、韩国汉字漢字한자)、琉球汉字漢字ハンジ)、越南的喃字𡨸喃Chữ Nôm)与儒字𡨸儒Chữ Nho)、方块壮字𭨡sawgun)。

历史

1978年,日本产业规格制订了基于ISO/IEC 2022JIS C 6226,为全世界最早的汉字编码,包含6349汉字。1980年代,中国台湾地区(CCCIICNS 11643)、中国(GB 2312)、韩国(KS C 5601)开始制订了各自的编码规范。这些规范彼此之间并无连系。若要在一份文件中同时使用,则要以转义字符的方式来交换。

1980年,日本的国立国会图书馆的高桥德太郎以书目学的观点指出,统一的东亚汉字编码系统有必要。同年,台湾当局制定了三字节的中文信息交换码,这是第一款期望可以一致处理中国、日本、韩国汉字的编码。之后,美国的国会图书馆采用了此标准,并另外命名为东亚编码字符(East Asia Coded Character,EACC,ANSI/NISO Z39.64)。

1984年,ISO的文字编码委员会(ISO/TC 97/SC2)决议制订出一套编码规格(ISO 10646),是以交换文字集的方式来统一处理世界的文字。并成立了工作小组(ISO/TC 97/SC 2/WG 2)。这编码一开始的构想是采用16位,而对于日本及中国等国的汉字编码则原封不动地加入。但若如此,中国当时所制订的编码都无法加入,因而反对,并在1989年提出各国汉字统合集合(Han Character Collection,HCC)的构想。

1990年完成了ISO 10646的初版草案(DIS 10646)。汉字用32位表示,并将各国的汉字编码原封不动加入。但中国认为,若各国各自为汉字编码,将不利于统一处理汉字,因而反对。为了日后能顺利讨论汉字编码及处理有关方针,并呼吁WG 2特别设置了中日韩联合研究小组(CJK-JRG,Joint Research Group,为表意文字小组的前身),以持续讨论。

另一方面,1987年,施乐的Joe Becker和Lee Collins开发了统合处理全世界所有文字的统一码。1989年发表了统一码概要。基本为16位。于是,中、日、韩的汉字统合了。基本方针以16位处理所有文字。1990年完成了基于此方针的最终草案。1991年1月,大致同意此方案的企业成立了统一码联盟。中、日、韩类似的汉字使用约二万多字。为了未来扩展,保留了三万汉字以供其它用途。

1991年,各国希望能以一致的方式处理文字,否决了ISO/IEC 10646的初版草案。基于中国与统一码联盟的提议,ISO 10646和统一码成立了中日韩联合研究小组。中日韩联合研究小组将基于各国的汉字编码,独自定义定规范、制作ISO 10646和统一码的统一汉字编码。年尾完成了Unified Repertoire and Ordering(URO)。1992年,URO加入ISO 10646的第二版,但发现一些缺失,之后修正。

1993年5月正式制订最初的“中日韩统一表意文字”位于U+4E00—U+9FFF,共20902字;不过汉字“”(U+3007)误当数字放入符号和标点区。一个月后制订了统一码1.1。

1999年,依据ISO/IEC 10646的第17修正案(Amendment 17)订定扩展区A,于U+3400—U+4DFF加入6582汉字。

2001年,依据ISO/IEC 10646-2新增扩展区B,于U+20000—U+2A6FF有42711汉字;但短时间内增加大量汉字,产生许多重复字形。

2005年,依据ISO/IEC 10646:2003的第一修正案(Amendment 1),基本多文种平面增加U+9FA6—U+9FBB,共22汉字。

2009年,统一码5.2扩展区C增加U+2A700—U+2B734,基本多文种平面增加U+9FC4—U+9FCB。

2010年,统一码6.0扩展区D增加U+2B740—U+2B81F。

2012年,统一码7.0基本多文种平面增加1汉字:U+9FCC。

2015年,统一码8.0扩展区E增加U+2B820—U+2CEAF,基本多文种平面增加U+9FCD—U+9FD5。

2017年,统一码10.0扩展区F增加U+2CEB0—U+2EBEF,基本多文种平面增加U+9FD6—U+9FEA。

2018年,统一码11.0基本多文种平面末尾增加5汉字:U+9FEB—U+9FEF。

2020年,统一码13.0增加4969汉字,其中4939字位于第三平面的扩展区G,码位为U+30000—U+3134A。同时,亦在基本区增加13字:U+9FF0—U+9FFC,在扩展A区增加10字:U+4DB6—U+4DBF,在扩展B区增加7字:U+2A6D7—U+2A6DD。

2021年,统一码14.0基本多文种平面末尾增加3汉字:U+9FFC—U+9FFF。同时,亦在扩展B区增加2字:U+2A6DE—U+2A6DF,在扩展C区增加4字:U+2B735—U+2B738。

2022年,统一码15.0增加4193汉字,其中4192字位于第三平面的扩展区H,码位为U+31350—U+323AF。同时,亦在扩展C区增加7字:U+2B739。

另外,第三平面的U+31400—U+33D1F预计放置小篆,U+33E00—U+355FF预计放置甲骨文,相关提案已经提交。按路线图,该平面还会收录金文、简帛文、陶文、鸟虫书等[1]

版本

ISO 10646版本 Unicode版本 新增 置放平面 字数 累计字数
1993 1.0 中日韩统一表意文字(U+4E00–U+9FA5) 基本多文种平面 20,902 20,915
1个汉字(U+3007,〇),于中日韩符号和标点 基本多文种平面 1
位于“兼容表意文字区”中但实则独一的汉字(U+FA0E﨎、U+FA0F﨏、U+FA11﨑、U+FA13﨓、U+FA14﨔、U+FA1F﨟、U+FA21﨡、U+FA23﨣、U+FA24﨤、U+FA27﨧、U+FA28﨨、U+FA29﨩)[注 1] 基本多文种平面 12
2000 3.0 中日韩统一表意文字扩展区A(U+3400–U+4DB5) 基本多文种平面 6,582 27,497
2001 3.1 中日韩统一表意文字扩展区B(U+20000–U+2A6D6) 第二辅助平面 42,711 70,208
2003第一修订版 4.1 HKSCS-2004中未加入ISO 10646的汉字(U+9FA6–U+9FB3,龦龧龨龩龪龫龬龭龮龯龰龱龲龳)和GB 18030-2000中未加入ISO 10646的印刷業常用的偏旁和字形部件(U+9FB4–U+9FBB,龴龵龶龷龸龹龺龻) 基本多文种平面 22 70,230
2003第四修订版 5.1 7个日语汉字[3](U+9FBC–U+9FC2,龼龽龾龿鿀䜤鿂),U+4039䀹拆分为U+4039䀹和U+9FC3鿃[4] 基本多文种平面 8 70,238
2003第五修订版 5.2 中日韩统一表意文字扩展区C(U+2A700–U+2B734) 第二辅助平面 4,149 74,395
2003第六修订版 2个日语用汉字(ARIB #47、#95,U+9FC4鿄,U+9FC5鿅)、1个新增汉字(ARIB #93,U+9FC6鿆)、在HKSCS-2004推出后新增的5个香港汉字[5](U+9FC7–U+9FCB,鿇鿈鿉鿊鿋) 基本多文种平面 8
2010 6.0 中日韩统一表意文字扩展区D(U+2B740–U+2B81D) 第二辅助平面 222 74,617
2012 6.1 1个汉字(U+9FCC鿌) 基本多文种平面 1 74,618
2015 8.0 中日韩统一表意文字扩展区E(U+2B820–U+2CEA1) 第二辅助平面 5,762 80,389
“急用汉字”:《通用规范汉字表》余下未收入的3个汉字(U+9FCD–U+9FCF,鿍鿎鿏),1个从U+4CA4()分离出来的字U+9FD0(䲤),5个其他图书用字及化学元素用字(U+9FD1–U+9FD5,鿑鿒鿓鿔鿕) 基本多文种平面 9
2017 10.0 中日韩统一表意文字扩展区F(U+2CEB0–U+2EBE0) 第二辅助平面 7,473 87,883
21个汉字(U+9FD6–U+9FEA,鿖鿗鿘鿙鿚鿛鿜鿝鿞鿟鿠鿡鿢鿣鿤鿥鿦鿧鿨鿩鿪) 基本多文种平面 21
2018 11.0 5个汉字(U+9FEB–U+9FEF,鿫鿬鿭鿮鿯),前三个是新命名的化学元素用字,后两字来自日本 基本多文种平面 5 87,888
2020 13.0 中日韩统一表意文字扩展区G(U+30000–U+3134A) 第三辅助平面 4939 92,857
急用科学与技术用字[6](U+9FF0–U+9FFC,鿰鿱鿲鿳鿴鿵鿶鿷鿸鿹鿺鿻鿼)、10个需分离的汉字[7][8][9](U+4DB6–U+4DBF,䶶䶷䶸䶹䶺䶻䶼䶽䶾䶿) 基本多文种平面 23
昆曲工尺谱用字[10](U+2A6D7–U+2A6DD,𪛗𪛘𪛙𪛚𪛛𪛜𪛝) 第二辅助平面 7
2021 14.0 3个汉字(U+9FFD–U+9FFF,鿽鿾鿿) 基本多文种平面 3 92,866
2个汉字(U+2A6DE–U+2A6DF,𪛞𪛟) 第二辅助平面 2
4个汉字(U+2B735–U+2B738,𫜵𫜶𫜷𫜸) 第二辅助平面 4
2022 15.0 中日韩统一表意文字扩展区H(U+31350–U323AF) 第三辅助平面 4192 97059
1汉字(U+2B739,𫜹) 第二辅助平面 1
2023 15.1 中日韩统一表意文字扩展区I(U+2EBF0-U+2EE5F) 第二辅助平面 622 97681

成员机构

收字来源

总计

中日韩统一表意文字来源[注 2]
提交源(类别) 提交量
中国(国家标准) 65941
 中国香港 17654
 中国澳门 344
中国台湾 58597
 日本 16148
 韩国 20739
 朝鲜 23795
 越南 13278
 英国 2503
大藏经文本数据库委员会 3455
统一码协会 1019
总计 223653

最初期统一汉字

最初期共20902统一汉字,范围为U+4E00-U+9FA5,收字来源包括以下字集[11]

类别 来源代码 名称 字数
中国
国标源(G)
G0 GB 2312-80 6763
G1 GB 12345-90 2352(含58香港字和92吏读字,不包括和GB 2312重复的字)
G3 GB 7589-87繁体版本 7237
G5 GB 7590-87繁体版本 7039
G7 现代汉语通用字表 42(G0、1、3、5、8未包括的字)
G8 GB 8565.2-89 290(G0、1、3、5未包括的字)
中国台湾源(T) T1 CNS 11643-1986第一字面 5401+9计量用汉字
T2 CNS 11643-1986第二字面 7650
TE CNS 11643-1986第十四字面 6319+239中文信息交换码特字+10施乐字符集(Xerox Character Code Standard,XCCS)特字
日本源(J) J0 JIS X 0208-90 6335+非汉字1个(仝)[12]
J1 JIS X 0212-90 5801
韩国源(K) K0 KS C 5601-87 4888(含268重见字[13]
K1 KS C 5657-91 2856
委员会源(U) KS C 5601-1987(当中重复的汉字)
美国国会图书馆之东亚字符编码(East Asia Character Code,简称EACC;标准号ANSI Z39.64-1989)[14]
大五码
中文信息交换码第一字面
GB 12052-89(汉字部分)
JEF(富士通标准)
中国电报码
台湾地区电报码(CCDC)
施乐中文编码
人名用汉字准用字体表(人名用汉字许容字体表;日本)
IBM选取的日本和韩国表意文字

其中,统一码技术委员会源(U源)指,并非由表意文字小组所递交的参考字集,而是委员会额外递交作参考的字集标准。并且此来源的字集不适用原字集分离原则(见稍后)。

扩展A区

扩展A区包含有6592汉字,位置在U+3400-U+4DBF。这6千多汉字分别从以下字典或字集获取:

类别 来源代码 名称 字数
中国国标源(G) G_KX 康熙字典 5357(独有1892字)
G_HZ 汉语大字典 5888(独有339字)
G3 GB 7589-87繁体版本 2391
G5 GB 7590-87繁体版本 1226
G7 现代汉语通用字表 120
GS 新加坡汉字 226
中国台湾源(T) T3 CNS 11643-1992第三字面(原为CNS 11643-1986第十四字面)新加入字符 2178
T4 CNS 11643-1992第四字面 2917
T5 CNS 11643-1992第五字面 395
T6 CNS 11643-1992第六字面 197
T7 CNS 11643-1992第七字面 133
TF CNS 11643-1992第十五字面 86
日本源(J) JA 日本信息技术零售商统一当代表意文字(1993) 574
韩国源(K) K2 PKS C 5700-1:1994
K3 PKS C 5700-2:1994 1834
越南源(V) V0 TCVN 5773:1993 138
V1 TCVN 6056:1995

扩展B区

扩展B区有42717汉字,位置在U+20000-U+2A6DD。根据IRG N777号文件,这四万多汉字分别从以下字典或字集中获取:

类别 来源代码 名称 字数
中国
国标源(G)
G_KX 《康熙字典》 18486(包括在补遗篇出现的一字)
G_HZ 《汉语大字典》 28914
G_CY 辞源 66
G_CH 辞海 247
G_HC 汉语大词典 553
G_BK 中国大百科全书 86
G_FZ 北大方正排版系统 65
G_4K 四库全书 522
中国香港源(H) H 香港增补字符集(HKSCS) 1081
中国台湾源(T) T4 CNS 11643-1992第四字面 3408
T5 CNS 11643-1992第五字面 8111
T6 CNS 11643-1992第六字面 5934
T7 CNS 11643-1992第七字面 6299
TF CNS 11643-1992第十五字面 6401
日本源(J) J3 JIS X 0213:2000,level 3 25
J3A JIS X 0213:2004,level 3 1
J4 JIS X 0213:2000,level 4 277
韩国源(K) K4 PKS 5700-3:1998 166
朝鲜源(KP) KP0 KPS 9566-97
KP1 KPS 10721-2000 5766
越南源(V) V2 VHN 01:1998 2290
V3 VHN 02:1998 425

这些汉字有不少重复,经整理后实际只有42711汉字。另外,U+2F800-U+2FA1D放了来自台湾的542兼容汉字

统一码4.1汉字

为使统一码向下兼容GB 18030和香港增补字符集(HKSCS)的所有汉字,而扩展C区又迟迟未能出笼,4.1版引进了香港增补字符集的14用字和GB 18030的8用字。该22字编于U+9FA6-U+9FBB。

另外,U+FA70-U+FAD9放了来自朝鲜的106兼容汉字。

统一码5.1汉字

2008年4月推出的统一码5.1版收录7个由日本Adobe公司递交的日语汉字(U+9FBC-U+9FC2)[15],和鿃(大字加两个字,就如陕西省的陝字换上目字旁)(U+9FC3)。本来统一码3.0收录了目字旁加夾(大字加两个字)字的“䀹”(U+4039),目字旁加㚒字的字,与“䀹”无论意义和发音均不同,故魏安(Andrew West)和井作恒(John H. Jenkins)申请追加此字[16]

扩展C区

于2009年10月发布的统一码5.2涵盖了扩展C区,共收录4149汉字,包括来自中国大陆澳门台湾日本越南等尚未编码的汉字,在U+2A700-U+2B734。这四千多汉字分别从以下字典或字集获取:

类别 来源代码 名称 字数
中国
国标源(G)
G_BK 中国大百科全书 74
G_FZ 北京大学方正排版系统 1
G_HZ 《汉语大字典》 1
G_HC 《汉语大词典》 14
G_GH 古代汉语词典 50
G_GJZ 商务印书馆用字 61
G_XC 现代汉语词典 25
G_CH 《辞海》 264
G_KX 《康熙字典》及补遗 6
G_CYY 中国测绘科学研究院用字 55
G_ZFY 汉语方言大辞典 202
G_ZJW 殷周金文集成引得 366
中国台湾源(T) TC CNS 11643-1992第12字面 634
TD CNS 11643-1992第13字面 767
TE CNS 11643-1992第14字面 350
澳门源 MAC 澳门资讯系统字集(Colectânea dos Caracteres Chineses dos Sistemas Informáticos de Macau) 16
日本源(J) JK 日本国字集(Japanese KOKUJI Collection) 367
韩国源(K) K5 韩国表意文字小组汉字集第五版(2001,Korean IRG Hanja Character Set 5th Edition: 2001) 404(当中主要包含古代字例)
朝鲜源(KP) KP1 KPS 10721:2003 5357(独有1892字)
越南源(V) V4 《喃字词典》(Từ điển chữ Nôm)[阮光红(Nguyễn Quang Hồng),2006]
《岱喃字字典》(Từ điển chữ Nôm TàyHoàng Triều Ân,2006)
《沔南喃字榜查》(Bảng tra chữ Nôm miền NamVũ Văn Kính,1994)
委员会源(U) ABC Chinese-English Dictionary(德范克,John DeFrancis等,第二版(1998),火奴鲁鲁:夏威夷大学出版社)
耶稣基督后期圣徒教会香港分会用字
Mathews' Chinese-English Dictionary(Robert H. Mathews(1975),剑桥:哈佛大学出版社)
宋本《广韵
中国鸟类系统检索》(郑作新等,北京:科学出版社,2000)
段玉裁说文解字注



扩展D区

扩展D区包含的都是所谓的“急用汉字”,合共222新汉字,于2010下半年发布的统一码6.0中,编码范围为U+2B740-U+2B81F(实际有字符为U+2B740-U+2B81D)。

扩展D区原本计划放置扩展C区未收录的16000多汉字,但在2007年5月,台湾当局撤销了6545个第二部分字集内私用汉字,不再使用字,原因是那些人名用字的拥有人已去世或移居外地[17],此后扩展D区缩减到大约10000字左右[18]。由于各种阻碍,协议先把数量较少,又急切要收录的汉字提交出来,就是“急用汉字”,以便和统一码6.0.0版一起发表。提出的急用汉字只有二百二十二字(本来有二百二十三字,但日本撤回其中一字)。现在文字小组把第二部分字集延后到扩展E区。

类别 来源代码 名称 字数
中国
国标源(G)
G_CH 《辞海》 1
G_IDC 公安部身份证系统人名和地名用字 31
G_XC 《现代汉语词典》 4
G_ZH 中华字海 39
中国台湾源(T) TB CNS 11643-2007第11平面24字(台湾当局教育主管部门闽客方言用字) 24
日本源(J) JH 通用电子情报交换环境整备计划(汎用電子情報交換環境整備プログラム日本经济产业省提出的人名和地名用字) 108
委员会源(U) Adobe-Japan1-5和Adobe-CNS1-5字体里的异体字 15

扩展E区

扩展E区亦在2015年6月17日的统一码8.0中发布,放置于编码范围U+2B820-U+2CEAF。

扩展E区本应包含扩展D区未收录的10000多个汉字,但在2008年11月,中国大陆以“难以逐个找证据”为理由,撤销了3215汉字[19],这些汉字主要用于地名、人名、姓氏,亦有数百个《中国大百科全书》中的文字。这是继台湾撤销6545字之后的又一次大规模撤销。之后又经过长时间的检查处理,E区最终定稿,共5762字[20]
这些汉字来源如下:

类别 来源代码 名称 字数
中国
国标源(G)
G_BK 中国大百科全书 15
G_CH 《辞海》 112
G_CY 《辞源》 3
G_CYY 中国测绘科学院用字(地名用字) 98
G_DZ 地质出版社用字 1
G_GH 《古代汉语词典》 176
G_HC 《汉语大词典》 7
G_IDC 公安部身份证系统人名和地名用字 36
G_JZ 商务印书馆用字 147
G_KX 康熙字典 22
G_RM 人民日报用字 3
G_WZ 汉语大词典出版社用字 12
G_XC 《现代汉语词典》 57
G_XH 新华字典 4
G_ZFY 《汉语方言大辞典》 712
G_ZJW 《殷周金文集成引得》 1410
中国台湾源(T) TC CNS 11643-1992第12平面323字(台湾人名用字) 323
TD CNS 11643-1992第13平面595字(台湾人名用字) 595
TE CNS 11643-1992第14平面339字(台湾人名用字) 339
日本源(J) JK 日本国字集 415
澳门源(M) MAC 澳门资讯系统字集 48
委员会源(U) UTC 从各处收集到的未收录汉字 227
越南源(V) V4 《喃字词典》(Từ điển chữ Nôm)[阮光红(Nguyễn Quang Hồng),2006] 1028
《岱喃字字典》(Từ điển chữ Nôm TàyHoàng Triều Ân,2006)
《沔南喃字榜查》(Bảng tra chữ Nôm miền NamVũ Văn Kính,1994)

急用汉字

“急用汉字”是扩展E区整理后期,各地新发现并急于使用,又等不及放入扩展F区的字;和扩展E区一起收入统一码8.0,位置在U+9FCD-U+9FD5;当中中国在此处申请收入三字,连同扩展E区的字,通用规范汉字表的8105字至此全部收入。

扩展F区

扩展F区在2017年6月20日的统一码10.0发布,编码范围为U+2CEB0-U+2EBEF。
扩展F区来源于新提交的一批汉字,主要包括一千多方块壮字及数千个佛经、古籍中的用字以及日本户籍用字,共有7473字。

这些汉字的来源如下:

类别 来源代码 名称 字数
中国
国标源(G)
G_CY 《辞源》 122
G_FC 现代汉语规范词典 27
G_IDC 公安部身份证用字 1
G_LGYJ 壮族嘹歌研究 1
G_OCD 牛津英汉汉英词典 2
G_PGLG 《壮族民歌文化丛书·平果嘹歌》 70
G_XHZ 新华大字典 51
G_Z 古壮字字典 995
G_ZJW 《殷周金文集成引得》 33
G_ZYS 《壮族人民的文化遗产——方块壮字》《中国民族古文字研究》 2
日本源(J) JMJ 日本文字信息基础工程 1645
韩国源(K) KC 韩国历史情报统合系统 1793
澳门源(M) MAC 澳门资讯系统字集 22
大藏经研究组(SAT) USAT 大正新修大藏经》(SAT版) 2884
委员会源(U) UTC 从各处收集到的未收录汉字 1

扩展G区

于2020年3月10日公布的统一码13.0中在第三辅助平面收录扩展区G的4939汉字,码位为U+30000-U+3134A[21][22]

这些汉字的来源如下(部分字符来自多于一处来源,所以下表总数多于收录总数4939字):

类别 来源代码 名称 字数
中国
国标源(G)
G_HZR 《汉语大字典》(第二版) 878
G_PGLG 《壮族民歌文化丛书·平果嘹歌》 13
G_Z 《古壮字字典》 1191
韩国源(K) KC 韩国历史情报统合系统(한국 역사 정보 통합 시스템) 428
中国台湾源(T) T13 CNS 11643第19字面(将设立的新平面) 347
TB CNS 11643第11字面 3
TC CNS 11643第12字面 2
TD CNS 11643第13字面 1
英国源(UK) UK IRG N2107R2 1566
大藏经研究组(SAT) USAT 大正新修大藏经》(SAT版) 329
委员会源(U) UTC 从各处收集到的未收录汉字 239

扩展H区

2022年9月13日公布的统一码15.0在第三辅助平面收录扩展区H的4192汉字,码位为U+31350-U+323AF。

这些汉字的来源如下(部分字符来自多于一处来源,下表总数多于收录总数4192字):

类别 来源代码 名称 字数
中国
国标源(G)
GDM 中华人民共和国公安部治安管理局地名汉字 128
GHC 汉语大词典 27
GKJ 全国科学技术名词审定委员会术语定名用字 30
GLGYJ 壮族嘹歌研究 11
GPGLG 壮族民歌文化丛书•平果嘹歌 14
GXM 217
GZ 古壮字字典 285
GZA-1 生生不息的传承•孝与壮族行孝歌之研究 6
GZA-2 壮族伦理道德长诗传扬歌译注 38
GZA-3 壮族民歌古籍集成•情歌(一)嘹歌 2
GZA-4 壮族民歌古籍集成•情歌(二)欢𭪤 11
GZA-6 中国壮族谚语 59
GZA-7 远古的追忆•壮族创世神话古歌研究 1
韩国源(K) KC 韩国历史情报统合系统 512
朝鲜源(KP) KP1 KPS 10721-2000 1
中国台湾源(T) T12 TCA-CNS 11643第十八平面 7
T13 TCA-CNS 11643第十九平面 696
T4 CNS 11643-1992第四平面 1
T6 CNS 11643-1992第六平面 1
TB CNS 11643-2007第十一平面 4
TC CNS 11643-2007第十二平面 3
TE CNS 11643-2007第十四平面 2
英国源(UK) UK IRG N2232R 917
越南源(V) V0 TCVN 5773:1193 6
V4 汉喃编码字汇 74
VN 越南横向扩展用字 851
大藏经研究组(SAT) 大藏经文字数据库 241
委员会源(U) UTC 161

扩展I区

2023年9月12日公布的统一码15.1在第二辅助平面收录扩展区I的622个汉字,码位为U+2EBF0-U+2EE5F。

这些汉字的来源如下:

类别 来源代码 名称 字数
中国国标源(G) GIDC23 公安部身份证系统人名和地名用字2023版 622

认同原则与原字集分离原则

“次”字的台湾当局教育行政主管部门字形大陆规范汉字韩国的汉字越南的汉字日本的汉字

表意文字认同原则(Han Unification Rule,又称表意文字统合原则)与原字集分离原则(Source Separation Rule,又称来源字集分离原则原规格分离原则字源分离原则),是两个对立的原则,它们是Unicode整理中日韩统一表意文字的基础。

东亚各国字形多有微妙的差异。如“房”字的第一笔,韩国传统汉字字形、台湾当局教育主管部门的标准字体作撇“”;香港教育参考字形、中国大陆规范作点“”;日本标准作横“”。又如“次”字的左旁,韩国采用传统字形,首笔为横,次笔为挑;台湾当局教育主管部门作两横;大陆、日本、中国香港等则作“冫”(俗称两点水)。这种程度的差异,理想上是整并为一个字为佳。否则,要是凡异体字都收进不同码位里,Unicode收录的汉字就会过于臃肿,用户搜索时也会因异体问题而找不到想要的结果。

然而,从之前各种受挫之文字整并计划的经验得知,集成字集与现行通用字集(Big5国标码)等无法一一对应,是推行集成字集的最大阻碍。例如,日本的JIS编码同时收录了“剣”字与“劍”字,原本JIS文件里这两个字可以并存。如果采用集成字集后,它们会变成同一个字,就会造成使用上的困扰。而且,如果将多个不同地区字形合并,会影响阅读者,令用户不习惯并非以往所见字形;更有可能引致阅读者因习惯而书写不属于自己地区的字形(或地区性的异体字)。

于是,表意文字认同原则与原字集分离原则就应运而生。

表意文字认同原则下,Unicode“只对(Character),而不对字形(Glyph)”编码,会把同一字的不同字形(即异体字)合并。好像上述的“次”字,在Unicode里会整并成一个码。又例如不同地区而有不同写法的部首,如“(中国大陆规范、日本新字体)、(港台旧字形、韩国、日本旧字体)、(台湾当局教育主管部门)”、“(中国大陆规范、台湾当局教育主管部门)、(日本新字体)、(日本旧字体、韩国、港台旧字形)”、“(中国大陆、港台新字形)、(旧字形)”等,会合并编码。这些部首的写法差异就会交由字体处理。比如说,使用依中国大陆汉字标准《印刷通用汉字字形表》的字体下(如中易宋体微软雅黑体)便会出现“”;使用台湾当局教育主管部门标准字体(如微软正黑体新版细明体,但旧版细明体[注 3])就会出现“”等字形。这大大解决了因地区而异之部首写法。

至于原字集分离原则是指,在上述所列出之各种收字来源里,若有任何字集同时收了两种以上的文字字形,则在Unicode中日韩统一表意文字中,也同时收录这些字。这样一来,现行的各种原有字集与Unicode汉字可以一一对应。比如“房”字,各地字集都没有分别编码,就只编进一个码位,部首第一笔的写法交由字体处理。然而,“戶”、“户”、“戸”这三个字,在一些地区标准里是分别编码的,Unicode则以三个码位来分别收录它们。上述的“剣”与“劍”也一样,被安放到不同的码位中。

基于上述运作,Unicode能大幅减少收录汉字字数,同时让地区编码过渡至Unicode时,字集里的字符不会有流失。但是,原字集分离原则破坏了Unicode“只对字,而不对字形”编码之原则,使某些汉字获得两个或多个编码,亦遭受不少批评。

后来的一些重复汉字会使用“兼容区”提供暂存编码,可通过归一化normalization)步骤移除。一般的汉字输入法,以及多数汉字字体,也不支持兼容区字符。

另外,原字集分离原则只适用于最初Unified Repertoire and Ordering(URO)的20,902字,换言之,由“扩展区A”开始就不再适用。原因是个别地区提交了不少仅有十分轻微差异的字样,比如台湾地区《异体字字典》里的各种异体,要求Unicode分别编码。然而,那些字样所建基的地区编码,并非该地区的通用编码,例如是中文标准交换码(台湾实际通行的编码是Big5码)。若Unicode全面采纳,将会令Unicode对异体字的处理更混乱。

今天,异体字选择器(Variation Sequence)以及Adobe常用的CID字体等技术,已容许在一个Unicode编码里收录和调用两个或多个汉字字样,原字集分离原则在今天已成为过时技术的副产品。

起源不同原则

留意的是,可以整并的字只限异体字。如果有些汉字,它的音、义根本不一样,是两个不相同的字,即使它们外形相近,写法差异比另一些整并的字少,但仍不能合并。这规则称为起源不同原则(Noncognate Rule)。

举例说:“土”和“士”虽然形似,却是两个不同的字,我们不可以整并它们。然而,日本、韩国、中国内地与香港等地的“”字,与台湾当局教育主管部门的“”字,两者顶部分别是“土”和“士”,但它们音义全同,是同一字的异体,于是就能够整并。

其他起源不同的例子还有“朏”与“胐”(“月偏旁”与“肉偏旁”对立)、“胄”与“冑”(“肉底”与“冃底”对立),“柿”和“杮”(右方“市部件”与“巿部件”对立),“汨”和“汩”(右方“日部件”与“曰部件”对立),“陝”与“陜”(右旁“夾部件”与“㚒部件”对立)等。

然而,汉字中有“同形字”的现象,有两个或多个读音与字义,虽然字源不同,却由同一字形表达出来。比如汉字“芸芸众生”的“芸”,与日本汉字“艺”字的新字体“芸”,是同形字。要是这些同形字,在字形上确实相同而非相似(“芸”字的草头虽然有三笔的“⺾”、四笔的“⺿”等不同写法,但它们都指同一部件,没有形成对立),就不会应用起源不同原则。

统汉字资料库

统汉字资料库(英语:Unihan database)是统一码联盟所维护的资料库文件。其为统汉字的每个汉字做了说明,内容包含:

  • 统一码与各国家、地区标准及各工业标准的对应。
  • 依据重要字典(如康熙字典)的排序索引。
  • 经过编码的异体字
  • 汉字在各种语言中的发音。
  • 英文释义。

其资料库透过以下几种方式发布:

  • 统一码联盟维护的网站版本[23]
  • 可供下载的TXT文本文件。
  • 基于上述文件开发的第三方版本。
    • libUnihan项目开发了一套可供调用的c,和一个SQLite格式的Unihan数据库[24]。前者以LGPL协议发布,后者以MIT协议发布。

已统一汉字

原则上ISO 10646只对(Character),而非字形(Glyph)编码。同一字各地可使用自己的标准写法。以下使用HTML标示同一编码的字在不同地区的写法(但只是读者的浏览器所提供的字体,未必代表该地区的标准写法)。

例子
Unicode 中文 日文 韩文 越文
中国大陆 台湾 香港
U+623F
U+6C49 [注 4]
U+6E2F
U+6F22
U+6FB3
U+76F4
U+7A97
U+89D2
U+8AA4
U+8BEF [注 4]
U+8D77
U+9AA8

注:不是所有网页浏览器均可分辨全部HTML语言代码(Language Code)并使用不同字形。如非某一地区的用户看到的字形和当地通用的字形一样,表示该用户的浏览器不能分辨此标签,或设置两者以同一种字形显示。

未统一汉字

有些字只是同一字在不同地区的写法,理应统一,但因为原字集分离原则而只好分开编码。由于KS X 1001、Big5、IBM 32、JIS X 0213、ARIB STD-B24、KPS 10721、CNS 11643中有太多字形非常接近,按Unicode标准应该统一,但是从编码上分离的字。这些字只有正统的会编入正式字集(包括扩展区),不正统的编入“兼容表意文字区”(Compatibility Ideographs)和位于“第二辅助平面”的“兼容表意文字补充区”(Compatibility Ideographs Supplement)中。

示例:

Unicode Unicode Unicode
U+4E1F U+4E22
U+514C U+5151
U+518A U+518C
U+5433 U+5434 U+5449
U+543F U+544A
U+5965 U+5967
U+5968 U+596C U+734E
U+5986 U+599D
U+59CD U+59D7
U+5C13 U+5C14
U+5F54 U+5F55
U+6236 U+6237 U+6238
U+63FA U+6416 U+6447
U+66A8 U+66C1
U+69D8 U+6A23
U+6A2A U+6A6B
U+6B65 U+6B69
U+7155 U+7199
U+7D55 U+7D76
U+7DA0 U+7DD1
U+9AEA U+9AEE
U+9EAA U+9EAB
U+9EBC U+9EBD
U+9EC3 U+9EC4
U+9ED1 U+9ED2

自上表发表后,WG2亦调查过其他汉字[25],认为另一批属于基本多文种平面的汉字,亦可考虑收编到ISO 10646 Annex S3

技术问题

扩展B区的问题

扩展B区使用了辅助平面来摆放汉字,以致不少文字处理软件都不能支持。例如,Microsoft Office 2000或之前的版本,即使电脑拥有扩展B区汉字字体,也只会显示两个方格。

另外,因扩展B区在整理上有缺陷,收录了以下5个本来应该与其他汉字统一的字[26]

而在WG2 N1155[25]文件中,亦列出了152对可考虑统一的汉字。

错误统一的问题

表意文字小组(IRG)处理文字时,遵循对字而不是对字形编码的原则。但是有的字被错误统一编在同一个编码之中,如编码为U+2827C的汉字。2014年5月有人指出了这个问题[27]

编码 中国台湾源(TF-6127) 中国香港源(H-8BAE)
U+2827C 𨉼 𨉼

当惡和恶作为部件时是不应该统一的,因为惡和恶的繁简性质不同。相关的规定中也并未提及惡和恶作为部件应当统一,况且𫫖和噁是分开编码的。

但是当表意文字小组(IRG)收到这个问题后,认为应当保持统一[28]。因此这两个字仍然在同一编码之中。

注释

  1. 这12个字放到兼容区不是因为和其他字同形或为异体,而是因为它们只收录在厂商用字中,但未有收录在官方标准(C-、T-、J-、K-Source)中。他们有独立的形、音、义,即“独一”(unique)[2]
  2. 部分字符来自多于一个来源,所以下表提交量总数多于收录总数97058字
  3. 旧版“细明体”指Windows XP或以前版本之新细明体细明体,其汉字写法大体上遵从传承字形
  4. 4.0 4.1 某些码位原来只有个别地区的字,但其他地区为兼容国际标准,逐渐将所有码位的字亦纳入其国家标准。

参考文献

  1. Roadmap to the TIP. 统一码联盟. [2018-06-03]. 
  2. Unicode 6.1,第410-411页
  3. http://www.dkuug.dk/JTC1/SC2/WG2/docs/n3210.pdf
  4. http://www.dkuug.dk/jtc1/sc2/wg2/docs/N3196.pdf
  5. http://www.dkuug.dk/jtc1/sc2/wg2/docs/n3513.pdf
  6. 存档副本 (PDF). [2020-03-24]. 
  7. 存档副本 (PDF). [2020-03-24]. 
  8. 存档副本 (PDF). [2020-03-24]. 
  9. 存档副本 (PDF). [2020-03-24]. 
  10. 存档副本 (PDF). [2020-03-24]. 
  11. Unihan_IRGSources.txt (from Unihan.zip). [2023-01-04]. 
  12. 日本的“仝”本来视为同上符号,编排于中日韩符号和标点区的 U+3004 Hanazono fonts. fonts.jp. [2010-04-19]. ;但后来与正字区 U+4EDD 的字认同(统一)了,U+3004 改为日本标准符号
  13. 收入中日韩兼容表意文字
  14. CJK Codes - CCCII and ANSI Z39.64-1989 (EACC). www.ibiblio.org. [2010-04-18]. 
  15. 存档副本 (PDF). [2011-09-09]. 
  16. 存档副本 (PDF). [2011-09-09]. 
  17. IRG N 1306: Request to Withdraw 6545 T-Source from CJK D candidate (PDF). [2010-06-06]. 
  18. IRGN1319A1_MoveToCJK_D.pdf (PDF). 
  19. 存档副本 (PDF). [2015年12月12日]. 
  20. 存档副本 (PDF). [2015-06-19]. 
  21. 存档副本 (PDF). [2020-03-11]. 
  22. 存档副本. [2020-03-11]. 
  23. 統漢字资料库. 统一码联盟. [2009-05-04]. 
  24. libUnihan主頁. libUnihan. [2009-05-04]. 
  25. 25.0 25.1 IRGN1155 Possible Duplicates (.zip). 
  26. 存档副本 (PDF). [2008-02-17]. 
  27. 存档副本 (PDF). [2015-06-20]. 
  28. ISO/IEC JTC1/SC2/WG2/IRG N2013,第5条 (PDF). [2015-06-20]. 

外部链接

Unicode(统一码)
ISO表意文字工作组

参见