帮助:Unicode扩展汉字

本页使用了标题或全文手工转换,现处于简体转换模式
帮助页面

2023年8月1日实施的中华人民共和国国家标准《信息技术 中文编码字符集》(GB 18030-2022)一方面是Unicode的完全对应编码,另一方面也对包括求闻百科(网站及基础设施)及阅读、编辑求闻百科所使用的软件、浏览器等的汉字支持程度提出了新的要求。

求闻百科所使用的共笔软件系统、数据库等不是汉字敏感的,亦即,其能接受并传输任何Unicode字符,包括GB 18030-2022、其第1号修改单(预计于2024年内发布)、后续修改单以及Unicode目前及今后规定的全部汉字、少数民族文字和全世界其他各民族使用的文字。求闻百科所使用的数据库表为“MariaDB utf8mb4”格式,支持存储整个Unicode编码空间内的全部字符。求闻百科唯一的汉字敏感的组件是提供“分类内按拼音排序”功能的扩展,其将按Unicode修订计划定期更新。因此,读者、编者所使用的操作系统、浏览器、字体字库等对GB 18030-2022及Unicode的支持对能否正常显示汉字至关重要。然而非常令人遗憾的是,由于Unicode的更新速度非常快,市面上的绝大多数设备和浏览器都有机会出现缺字的情形,导致字符显示为方格、乱码、内码方块、问号或空格等,影响用户使用体验。

除此之外,Unicode将大部分在来源编码中分开编码,但按汉字统一标准同属一字的汉字分入“兼容汉字”区,以便达成无损来回转换。除了专门处理某来源编码“一字多形”的字型之外,大部分字型都将兼容区的汉字按其对应的普通字形呈现。因此,若想要分开显示JIS X 0213:2004中“”(U+8CD3)的旧字形“”(U+FA64),就需要安装特殊字型。[1]

要找出这些字,可到下面的“Unicode编码表”,或到Unicode Consortium网站参阅他们的PDF档案。

测试

本章节用于Unicode汉字显示情况相关的展示。如果您的设备缺少相关的字型,会显示为方框。

GB 18030-2022 实现级别1

合计27 570个汉字及14个汉字部首,外加9个在GB 18030-2005中存在,但在GB 18030-2022中删去的汉字位置。

  • 中日韩统一表意文字(Unicode 1.0.1)(20 902个):北(U+5317)、晈(U+6648)、藐(U+85D0)、針(U+91DD)
  • 位于GB 18030-2022双字节区的中日韩统一表意文字(Unicode 4.1追补)(8个):龵(U+9FB5)
  • 位于GB 18030-2022双字节区的中日韩统一表意文字扩展区A(Unicode 3.0)(52个):㘎(U+360E)
  • 位于GB 18030-2022双字节区的中日韩汉字部首补充(Unicode 3.0)(14个):⺈(U+2E88)
  • 位于GB 18030-2022双字节区的中日韩兼容表意文字(Unicode 1.0.1)(12个):﨔(U+FA14)
  • 位于GB 18030-2022双字节区的中日韩兼容表意文字(Unicode 1.0.1)(9个——为保证与GB 18030-2005兼容而留空):凉(U+F979)
  • 位于GB 18030-2022四字节区的中日韩统一表意文字(Unicode 4.1追补)(14个):龯(U+9FAF)
  • 中日韩统一表意文字(Unicode 5.1追补)(8个):鿁(U+9FC1)
  • 中日韩统一表意文字(Unicode 5.2追补)(8个):鿈(U+9FC8)
  • 中日韩统一表意文字(Unicode 6.1追补)(1个):鿌(U+9FCC)
  • 中日韩统一表意文字(Unicode 8.0追补,通称“急用汉字”)(3个):鿎(U+9FCE)
  • 中日韩统一表意文字(Unicode 8.0追补)(6个):鿔(U+9FD4)
  • 中日韩统一表意文字(Unicode 10.0追补)(21个):鿦(U+9FE6)
  • 中日韩统一表意文字(Unicode 11.0追补)(5个):鿬(U+9FEC)、鿮(U+9FEE)
  • 位于GB 18030-2022四字节区的中日韩统一表意文字扩展区A(Unicode 3.0)(6 530个):㐀(U+3400)、䏌(U+43CC)

GB 18030-2022 实现级别2

通称“BMP外196字”,见《通用规范汉字表》。实现级别1与实现级别2总计27 766个汉字及14个汉字部首。

  • 位于中日韩统一表意文字扩展区B(Unicode 3.1)的通用规范汉字(36个):𠳐(U+20CD0)、𥻗(U+25ED7)、𩾌(U+29F8C)
  • 位于中日韩统一表意文字扩展区C(Unicode 5.2)的通用规范汉字(44个):𪨶(U+2AA36)、𫚕(U+2B695)
  • 位于中日韩统一表意文字扩展区D(Unicode 6.0)的通用规范汉字(8个):𫠆(U+2B806)
  • 位于中日韩统一表意文字扩展区E(Unicode 8.0)的通用规范汉字(108个):𫰛(U+2BC1B)、𬉼(U+2C27C)、𬬿(U+2CB3F)、𬶠(U+2CDA0)

GB 18030-2022 实现级别3

实现级别1、实现级别2与实现级别3总计87 887个汉字及228个汉字部首。由于这一数字超过了OpenType单个字体字符数的上限(65 535个),因此您需要使用同一字体组的多个字体,或者使用OpenType字体集。

  • 康熙部首(Unicode 3.0)(214个):⼳(U+2F33)、⾔(U+2F94)
  • 位于中日韩统一表意文字扩展区B(Unicode 3.1)的非通用规范汉字(42 675个):𡈈(U+21208)、𤁾(U+2407E)、𦿅(U+26FC5)、𩻭(U+29EED)
  • 位于中日韩统一表意文字扩展区C(Unicode 5.2)的非通用规范汉字(4 105个):𪠅(U+2A805)、𪿾(U+2AFFE)、𫐕(U+2B415)
  • 位于中日韩统一表意文字扩展区D(Unicode 6.0)的非通用规范汉字(214个):𫝾(U+2B77E)
  • 位于中日韩统一表意文字扩展区E(Unicode 8.0)的非通用规范汉字(5 654个):𫤖(U+2B916)、𬄀(U+2C100)、𬫿(U+2CAFF)
  • 中日韩统一表意文字扩展区F(Unicode 10.0)(7 473个):𬼳(U+2CF33)、𭤯(U+2D92F)、𮜀(U+2E700)

GB 18030-2022 第1号修改单对实现级别3的补充

总计97 680个汉字及228个部首。

  • 中日韩统一表意文字(Unicode 13.0追补)(13个):鿴(U+9FF4)
  • 中日韩统一表意文字扩展区A(Unicode 13.0追补)(10个):䶹(U+4DB9)
  • 中日韩统一表意文字扩展区B(Unicode 13.0追补)(7个):𪛘(U+2A6D8)
  • 中日韩统一表意文字扩展区G(Unicode 13.0)(4 939个):𰝵(U+30775)、𰳾(U+30CFE)
  • 中日韩统一表意文字(Unicode 14.0追补)(3个):鿾(U+9FFE)
  • 中日韩统一表意文字扩展区B(Unicode 14.0追补)(2个):𪛞(U+2A6DE)
  • 中日韩统一表意文字扩展区C(Unicode 14.0追补)(4个):𫜶(U+2B736)
  • 中日韩统一表意文字扩展区H(Unicode 15.0)(4 192个):𱗯(U+315EF)、𱶐(U+31D90)
  • 中日韩统一表意文字扩展区C(Unicode 15.0追补)(1个):𫜹(U+2B739)
  • 中日韩统一表意文字扩展区I(Unicode 15.1,通称“公安人口信息专用字库补充汉字”)(622个):𮴅(U+2ED05)

模板

如果条目的标题或正文使用了Unicode 1.0.1版规定的20 902个汉字以外的任何其他汉字,请加入以下模板:

模板链接:{{CJK-New-Char}}会显示
模板链接:{{CJK-New-Char|漢字16進位編碼}},以9FEB作参数则显示:
模板链接:{{CJK-New-Char|漢字16進位編碼|block=A}},指明该字为扩展A区汉字:
模板链接:{{CJK-New-Char|漢字16進位編碼|block=B}},指明该字为扩展B区汉字:
模板链接:{{CJK-New-Char|漢字16進位編碼|block=C}},指明该字为扩展C区汉字:
模板链接:{{CJK-New-Char|漢字16進位編碼|block=D}},指明该字为扩展D区汉字:
模板链接:{{CJK-New-Char|漢字16進位編碼|block=E}},指明该字为扩展E区汉字:
模板链接:{{CJK-New-Char|漢字16進位編碼|block=F}},指明该字为扩展F区汉字:
模板链接:{{CJK-New-Char|漢字16進位編碼|block=G}},指明该字为扩展G区汉字:
模板链接:{{CJK-New-Char|漢字16進位編碼|ver=麻將符號}},指明该字符为麻将字符:
模板链接:{{CJK-New-Char|第1個字的編碼|第2個字的編碼|...}},以同一模板显示超过1个字(最多20个字):

对于使用越南语固有文字喃字的条目,加入模板链接:{{NomText}}

对于使用JIS X 0213:2004新收录汉字的条目,加入模板链接:{{JIS2004}}

支持大字集的字型

若系统不能正确显示相关字元,请尝试从下面选择一个字型安装:

名称 字形标准 开源 Unicode支持部份 注释
华康标准宋体 中国台湾 基本区、扩展A区、香港增补字符集(HKSCS)
微软正黑体 基本区、扩展A区 可在Windows Vista安装光盘、安装Office 2007Visual Studio 2010等新版软体或微软官方网站上取得这两种字型。
下载Windows XP简体中文ClearType字库
下载Traditional Chinese ClearType fonts for Windows XP
微软雅黑 中国大陆 基本区、扩展A区全部汉字,扩展B区、C区、D区、E区的一部分汉字(仅限于《通用规范汉字表》内[a]
微软GB18030 Support Package 基本区、扩展A区 安装后会添加4字节字符集编码支持插件和Simsun-18030字体以显示A区汉字。
冬青黑体简体中文 基本区、扩展A区 字游工房汉仪设计,并内置于macOS
天珩字库 中国大陆、中国台湾、中国香港、日本、韩国 Unicode同步更新,《TH-Tshyn》已支持显示全部Unicode15.1字符,包括14余万汉字〔基本区及扩展A、B、C、D、E、F、G、H、I区(含增补)〕。
字库以《Unicode Charts》为准修正了大量汉字字形,如“”、“”、“”、“”等。
中易宋体思源黑体花园明朝等字形风格为基础制作,《TH-Tshyn》中的TH-Times.ttc支持复杂文种(如传统蒙古文的正确显示。
Han Nom Fonts(汉喃明) 越南(喃字 Green tickY 基本区、部分扩展A区、B区汉字 越学院的Han Nom字型高解析度版本。
Nôm Na Tống(喃那宋) 字形受到一些越南古籍的影响。
下载链接
花园明朝 日本(JIS X 0213:2004) 基本区、扩展A区、B区、C区、D区、E区,表意文字异体数据库(IVD)Adobe-Japan1集合、Hanyo-Denshi集合,平假名,片假名,变体假名,谚文字母及音节,太玄经符号,算筹数字,易经六十四卦符号,麻将牌,盲文图案
该字体分成HanaMinA(花園明朝A)、HanaMinB(花園明朝B)两部分,其中HanaMinA仅对中日韩统一表意文字区及其扩展A区提供全面支持,HanaMinB提供了对B区、C区、D区、E区、F区的完整支持。
从OSDN下载
FZKaiS-Extended 中国大陆 基本区、扩展A区 由北大方正依楷体风格设计的大字符集字体。
FZKaiS-Extended(SIP) 扩展B区 可分别配合FZKaiS-Extended使用。
方正宋体S-超大字符集 基本区、扩展A区 由北大方正依宋体风格设计的大字符集字体。
方正宋体S-超大字符集(SIP) 扩展B区 配合方正宋体S-超大字符集使用。
BabelStone Han Green tickY 基本区、扩展A区、B区、E区、G区中的部份字元,扩展C区、D区和F区的所有字元 由汉学家魏安基于文鼎PL细上海宋修改,下载链接
文泉驿开源中文计划 完整覆盖GB2312、Big5以及GBK标准字符集
思源黑体[1]
Noto Sans CJK[2]
简体版:中国大陆 完整基本区、扩展A区,扩展B~E区中规范汉字(即全部《通用规范汉字表》内字) GoogleAdobe联合开发并各自推出
繁体版:台湾、香港 A区、B区中部分常用字
完整版 完整基本区、扩展A区,扩展B~F区中的部份常用字
苹方 苹方-简:中国大陆 完整基本区、扩展A区,扩展B~E区中的部分常用字 Apple委托华康设计,内置于iOSmacOSwatchOStvOS,随系统更新而更新
苹方-繁:台湾地区 扩展A~E区中的部分常用字。可配合苹方-简使用
苹方-港:香港特别行政区
851手写杂字体 不定,主要为日本 基本区、扩展A区、B区、C区、D区、E区中的中、日文常用字(完全覆盖《通用规范汉字表》) 手写字体。
遍黑体 中国大陆 Green tickY 完整扩展C区、D区、G区、H区,基本区、扩展A区增补部分,少量其他扩展区汉字和非汉字字符 基于思源黑体修改而成。
源样黑体 旧字形(非任何现实地区标准) 完整基本区、扩展A区,扩展B区、C区、D区、E区、F区中的部份常用字,特制台湾闽客字、适应繁体中文的本地化改进 基于韩文版本的汉字传承字形修改而成。
一点明体 传承字形(非任何现实地区标准) 基本区、扩展A区、B区、C区、D区、E区、F区、G区中的中、日文常用字,香港字、台湾闽客字,假名和扩展假名,粤语和台湾方音注音符号,部首、汉字笔画,麻雀牌、中国象棋、中国算筹、中式“正”字计数符号、八卦符号、易经六十四卦符号、太玄经符号等字符 完全覆盖《通用规范汉字表》所有汉字及对应繁体字。
  • 注意:表格中“字形标准”栏指的是该字体设计所符合的字形标准,并非其能显示的汉字范围,例如标明了“中国大陆”的字型亦能显示繁体中文(但是会以中国大陆的繁体字字形标准显示)。字型支援的编码范围,见“支援部份”栏。

辅助工具

  • BabelMapBabelMap线上版BabelPad这里有一个汉化版)
    可直接键入Unicode内码、或使用拼音或部首找字,然后把文字粘贴到浏览器
  • Unicode Unihan Database (英文)
    可使用拼音或部首找字
  • 字形维基Glyphwiki (日语)(繁体中文)(简体中文)
    制作字形文件时可以使用这个网站上的字形图片(推荐使用svg格式)
  • 字海网叶典网 (简体中文)
    可以使用两分查询生僻字,支持使用释义反查汉字;收录汉字14.1万(14.0万释义),囊括《中华字海》《康熙字典》《汉语大字典》《现代汉语词典》,与Unicode同步更新汉字集,并提供标准码位。
  • 字统网 (简体中文)
    汉字源、形、音、义、码数据库整合站点。收录字形19.7万、字义15.6万(《说文解字》《康熙字典》等)、字理字源14.4万(《字源》《汉语多功能字库》等)、超227万笔音韵数据〔5地标准音、18本韵书(《广韵》《集韵》《蒙古字韵》《洪武正韵》等)、10种上古音方案、450馀方言点〕。同时还提供历代书法资源和动态组字工具。
  • 古今文字集成(简体中文)开放古文字字形字库 (繁体中文)
    可以通过多种检索方式查询大量古、今汉字以及类汉字(如西夏文、契丹文、女真文)释义、字形更革、音韵演变的大型在线辞书。
  • 汉典 (简体中文)
    可以透过部首、拼音找字,生僻字有图片、文字转换功能,包含《说文解字》《康熙字典》字书内容。
  • 异体字字典 (繁体中文)
    可以通过笔画、部首检索中日韩用汉字正字、异体字,网站使用了大量字形图片,收录超过10万字
  • 国际电脑汉字及异体字知识库 (繁体中文)
    可以透过部首、部件、相似字、UNICODE编码找字。
  • 汉语多功能字库 (繁体中文)
    可提供历史字形、字源字理、音韵学语言学等数据资料,详见使用凡例
  • 姓名生僻字处理平台(简体中文)
    致力于解决姓名生僻字的社会应用问题,有生僻字查询、登记、Unicode转汉字等工具

注释

  1. 即包括:𠅤𠙶𠳐𡎚𡐓𣗋𣲗𣲘𣸣𤧛𤩽𤫉𥔲𥕢𥖨𥻗𦈡𦒍𦙶𦝼𦭜𦰡𧿹𨐈𨙸𨚕𨟠𨭉𨱇𨱏𨱑𨱔𨺙𩽾𩾃𩾌𪟝𪣻𪤗𪨰𪨶𪩘𪾢𫄧𫄨𫄷𫄸𫇭𫌀𫍣𫍯𫍲𫍽𫐄𫐐𫐓𫑡𫓧𫓯𫓶𫓹𫔍𫔎𫔶𫖮𫖯𫖳𫗧𫗴𫘜𫘝𫘦𫘧𫘨𫘪𫘬𫚕𫚖𫚭𫛭𫞩𫟅𫟦𫟹𫟼𫠆𫠊𫠜𫢸𫫇𫭟𫭢𫭼𫮃𫰛𫵷𫶇𫷷𫸩𬀩𬀪𬂩𬃊𬇕𬇙𬇹𬉼𬊈𬊤𬌗𬍛𬍡𬍤𬒈𬒔𬒗𬕂𬘓𬘘𬘡𬘩𬘫𬘬𬘭𬘯𬙂𬙊𬙋𬜬𬜯𬞟𬟁𬟽𬣙𬣞𬣡𬣳𬤇𬤊𬤝𬨂𬨎𬩽𬪩𬬩𬬭𬬮𬬱𬬸𬬹𬬻𬬿𬭁𬭊𬭎𬭚𬭛𬭤𬭩𬭬𬭯𬭳𬭶𬭸𬭼𬮱𬮿𬯀𬯎𬱖𬱟𬳵𬳶𬳽𬳿𬴂𬴃𬴊𬶋𬶍𬶏𬶐𬶟𬶠𬶨𬶭𬶮𬷕𬸘𬸚𬸣𬸦𬸪𬹼𬺈𬺓

参考资料

  1. 从Unicode的本身角度说,新旧字形不应使用“相容功能”表示,而应该通过表意文字变种资料库中的后缀序列指定。要表示旧字形的“”,可以在Adobe-Japan1对照表查到8CD3的E0101号变体,使用(U+8CD3 U+E0101)序列表示。