Help:Unicode扩展汉字:修订间差异

帮助页面
添加的内容 删除的内容
→‎测试:​ // Edit via Wikiplus
 

(未显示同一用户的9个中间版本)

第5行: 第5行:
{{操作指南|H:UNIHAN}}
{{操作指南|H:UNIHAN}}


2023年8月1日实施的中华人民共和国国家标准《信息技术 中文编码字符集》(GB 18030-2022)一方面是Unicode的完全对应编码,另一方面也对包括求闻百科(网站及基础设施)及阅读、编辑求闻百科所使用的软件、浏览器等的汉字支持程度提出了新的要求。
Unicode 1.0版提供了20,916個漢字(包括繁體中文、簡體中文、日語及韓語所用的漢字),一般來說能滿足日常使用。而对于其后Unicode 3.0版引進的「[[中日韓統一表意文字擴展區A|擴展A區漢字]]」、「康熙部首」和「中日韓部首」;Unicode 3.1版引進的「[[中日韓統一表意文字擴展區B|擴展B區漢字]]」;Unicode 4.1版引進的「[[GB 18030]]與[[香港增補字符集|HKSCS增補漢字]]」;Unicode 5.1版引進的8個漢字(參看[[中日韓統一表意文字]]條目);Unicode 5.2版引進的「[[中日韓統一表意文字擴展區C|擴展C區漢字]]」;Unicode 6.0版引進的「[[中日韓統一表意文字擴展區D|擴展D區漢字]]」;Unicode 8.0版引进的「[[中日韓統一表意文字擴展區E|擴展E區漢字]]」;Unicode 10.0版引进的「[[中日韓統一表意文字擴展區F|擴展F區漢字]]」;Unicode 13.0版引進的「[[中日韓統一表意文字擴展區G|擴展G區漢字]]」;Unicode 15.0版引进的“[[中日韩统一表意文字扩展区H|扩展H区汉字]]”和Unicode 15.1版引进的“[[中日韩统一表意文字扩展区I|扩展I区汉字]]”,缺乏相關特殊字體或瀏覽器支援性較差的電腦有可能會產生缺字的情形,導致字符顯示為方格、[[亂碼]]或問號等。在iPhone 5s或更舊款的智慧型手機上無法顯示,會使用戶以為有關字元消失或遺漏了。

求闻百科所使用的共笔软件系统、数据库等不是汉字敏感的,亦即,其能接受并传输任何Unicode字符,包括GB 18030-2022、其第1号修改单(预计于2024年内发布)、后续修改单以及Unicode目前及今后规定的全部汉字、少数民族文字和全世界其他各民族使用的文字。求闻百科所使用的数据库表为“MariaDB utf8mb4”格式,支持存储整个Unicode编码空间内的全部字符。求闻百科唯一的汉字敏感的组件是提供“分类内按拼音排序”功能的扩展,其将按Unicode修订计划定期更新。因此,读者、编者所使用的操作系统、浏览器、字体字库等对GB 18030-2022及Unicode的支持对能否正常显示汉字至关重要。然而非常令人遗憾的是,由于Unicode的更新速度非常快,市面上的绝大多数设备和浏览器都有机会出现缺字的情形,导致字符显示为方格、乱码、内码方块、问号或空格等,影响用户使用体验。


除此之外,Unicode將大部分在來源編碼中分開編碼,但按漢字統一標準同屬一字的漢字分入「兼容漢字」區,以便達成無損來回轉換。除了專門處理某來源編碼「一字多形」的字型之外,大部分字型都將兼容區的漢字按其對應的普通字形呈現。因此,若想要分開顯示JIS X 0213:2004中「{{lang|ja|賓}}」(U+8CD3)的舊字形「{{lang|ja|賓}}」(U+FA64),就需要安裝特殊字型。<ref>從Unicode的本身角度說,新舊字形不應使用「相容功能」表示,而應該通過[http://unicode.org/ivd/ 表意文字變種資料庫]中的后缀序列指定。要表示舊字形的「{{lang|ja|賓}}」,可以在[http://www.unicode.org/ivd/data/2016-08-15/IVD_Charts_Adobe-Japan1.pdf Adobe-Japan1對照表]查到8CD3的E0101號變體,使用(U+8CD3 U+E0101)序列表示。</ref>
除此之外,Unicode將大部分在來源編碼中分開編碼,但按漢字統一標準同屬一字的漢字分入「兼容漢字」區,以便達成無損來回轉換。除了專門處理某來源編碼「一字多形」的字型之外,大部分字型都將兼容區的漢字按其對應的普通字形呈現。因此,若想要分開顯示JIS X 0213:2004中「{{lang|ja|賓}}」(U+8CD3)的舊字形「{{lang|ja|賓}}」(U+FA64),就需要安裝特殊字型。<ref>從Unicode的本身角度說,新舊字形不應使用「相容功能」表示,而應該通過[http://unicode.org/ivd/ 表意文字變種資料庫]中的后缀序列指定。要表示舊字形的「{{lang|ja|賓}}」,可以在[http://www.unicode.org/ivd/data/2016-08-15/IVD_Charts_Adobe-Japan1.pdf Adobe-Japan1對照表]查到8CD3的E0101號變體,使用(U+8CD3 U+E0101)序列表示。</ref>
第38行: 第40行:


=== GB 18030-2022 实现级别1 ===
=== GB 18030-2022 实现级别1 ===
合计27 570个汉字及14个汉字部首,外加9个在GB 18030-2005中存在,但在GB 18030-2022中删去的汉字位置。
* 中日韩统一表意文字(Unicode 1.0.1)(20 902个):&#x5317;(U+5317)、&#x6648;(U+6648)、&#x85D0;(U+85D0)、&#x91DD;(U+91DD)
* 中日韩统一表意文字(Unicode 1.0.1)(20 902个):&#x5317;(U+5317)、&#x6648;(U+6648)、&#x85D0;(U+85D0)、&#x91DD;(U+91DD)
* 位于GB 18030-2022双字节区的中日韩统一表意文字(Unicode 4.1追补)(8个):&#x9FB5;(U+9FB5)
* 位于GB 18030-2022双字节区的中日韩统一表意文字(Unicode 4.1追补)(8个):&#x9FB5;(U+9FB5)
* 位于GB 18030-2022双字节区的中日韩统一表意文字扩展区A(Unicode 3.0)(52个):&#x360E;(U+360E)
* 位于GB 18030-2022双字节区的中日韩统一表意文字扩展区A(Unicode 3.0)(52个):&#x360E;(U+360E)
* 位于GB 18030-2022双字节区的中日韩汉字部首补充(Unicode 3.0)(14个):&#x2E88;(U+2E88)
* 位于GB 18030-2022双字节区的中日韩汉字部首补充(Unicode 3.0)(14个):&#x2E88;(U+2E88)
* 位于GB 18030-2022双字节区的中日韩兼容表意文字(Unicode 3.0)(12个):&#xFA14;(U+FA14)
* 位于GB 18030-2022双字节区的中日韩兼容表意文字(Unicode 1.0.1)(12个):&#xFA14;(U+FA14)
* 位于GB 18030-2022双字节区的中日韩兼容表意文字(Unicode 3.0)(9个——为保证与GB 18030-2005兼容而留空):&#xF979;(U+F979)
* 位于GB 18030-2022双字节区的中日韩兼容表意文字(Unicode 1.0.1)(9个——为保证与GB 18030-2005兼容而留空):(U+F979)
* 位于GB 18030-2022四字节区的中日韩统一表意文字(Unicode 4.1追补)(14个):&#x9FAF;(U+9FAF)
* 位于GB 18030-2022四字节区的中日韩统一表意文字(Unicode 4.1追补)(14个):&#x9FAF;(U+9FAF)
* 中日韩统一表意文字(Unicode 5.1追补)(8个):&#x9FC1;(U+9FC1)
* 中日韩统一表意文字(Unicode 5.1追补)(8个):&#x9FC1;(U+9FC1)
第51行: 第54行:
* 中日韩统一表意文字(Unicode 8.0追补)(6个):&#x9FD4;(U+9FD4)
* 中日韩统一表意文字(Unicode 8.0追补)(6个):&#x9FD4;(U+9FD4)
* 中日韩统一表意文字(Unicode 10.0追补)(21个):&#x9FE6;(U+9FE6)
* 中日韩统一表意文字(Unicode 10.0追补)(21个):&#x9FE6;(U+9FE6)
* 中日韩统一表意文字(Unicode 11.0追补)(5个):&#x9FEC;(U+9FEC)
* 中日韩统一表意文字(Unicode 11.0追补)(5个):&#x9FEC;(U+9FEC)、&#x9FEE;(U+9FEE)
* 位于GB 18030-2022四字节区的中日韩统一表意文字扩展区A(Unicode 3.0)(6 530个):&#x3400;(U+3400)、&#x43CC;(U+43CC)
* 位于GB 18030-2022四字节区的中日韩统一表意文字扩展区A(Unicode 3.0)(6 530个):&#x3400;(U+3400)、&#x43CC;(U+43CC)


=== GB 18030-2022 实现级别2 ===
=== GB 18030-2022 实现级别2 ===
通称“BMP外196字”,见《[[通用规范汉字表]]》。
通称“BMP外196字”,见《[[通用规范汉字表]]》。实现级别1与实现级别2总计27 766个汉字及14个汉字部首
* 位于中日韩统一表意文字扩展区B(Unicode 3.1)的通用规范汉字(36个):&#x20CD0;(U+20CD0)、&#x25ED7;(U+25ED7)、&#x29F8C;(U+29F8C)
* 位于中日韩统一表意文字扩展区B(Unicode 3.1)的通用规范汉字(36个):&#x20CD0;(U+20CD0)、&#x25ED7;(U+25ED7)、&#x29F8C;(U+29F8C)
* 位于中日韩统一表意文字扩展区C(Unicode 5.2)的通用规范汉字(44个):&#x2AA36;(U+2AA36)、&#x2B695;(U+2B695)
* 位于中日韩统一表意文字扩展区C(Unicode 5.2)的通用规范汉字(44个):&#x2AA36;(U+2AA36)、&#x2B695;(U+2B695)
第62行: 第65行:


=== GB 18030-2022 实现级别3 ===
=== GB 18030-2022 实现级别3 ===
实现级别1、实现级别2与实现级别3总计87 887个汉字及228个汉字部首。由于这一数字超过了OpenType单个字体字符数的上限(65 535个),因此您需要使用同一字体组的多个字体,或者使用OpenType字体集。
* 康熙部首(Unicode 3.0)(214个):&#x2F33;(U+2F33)、&#x2F94;(U+2F94)
* 位于中日韩统一表意文字扩展区B(Unicode 3.1)的非通用规范汉字(42 675个):&#x21208;(U+21208)、&#x2407E;(U+2407E)、&#x26FC5;(U+26FC5)、&#x29EED;(U+29EED)
* 位于中日韩统一表意文字扩展区C(Unicode 5.2)的非通用规范汉字(4 105个):&#x2A805;(U+2A805)、&#x2AFFE;(U+2AFFE)、&#x2B415;(U+2B415)
* 位于中日韩统一表意文字扩展区D(Unicode 6.0)的非通用规范汉字(214个):&#x2B77E;(U+2B77E)
* 位于中日韩统一表意文字扩展区E(Unicode 8.0)的非通用规范汉字(5 654个):&#x2B916;(U+2B916)、&#x2C100;(U+2C100)、&#x2CAFF;(U+2CAFF)
* 中日韩统一表意文字扩展区F(Unicode 10.0)(7 473个):&#x2CF33;(U+2CF33)、&#x2D92F;(U+2D92F)、&#x2E700;(U+2E700)


=== GB 18030-2022 第1号修改单对实现级别3的补充 ===
=== GB 18030-2022 第1号修改单对实现级别3的补充 ===
总计97 680个汉字及228个部首。
* 中日韩统一表意文字(Unicode 13.0追补)(13个):&#x9FF4;(U+9FF4)
* 中日韩统一表意文字(Unicode 13.0追补)(13个):&#x9FF4;(U+9FF4)
* 中日韩统一表意文字(Unicode 14.0追补)(3个):&#x9FFE;(U+9FFE)
* 中日韩统一表意文字扩展区A(Unicode 13.0追补)(10个):&#x4DB9;(U+4DB9)
* 中日韩统一表意文字扩展区A(Unicode 13.0追补)(10个):&#x4DB9;(U+4DB9)
* 中日韩统一表意文字扩展区B(Unicode 13.0追补)(7个):&#x2A6D8;(U+2A6D8)
* 中日韩统一表意文字扩展区G(Unicode 13.0)(4 939个):&#x30775;(U+30775)、&#x30CFE;(U+30CFE)
* 中日韩统一表意文字(Unicode 14.0追补)(3个):&#x9FFE;(U+9FFE)
* 中日韩统一表意文字扩展区B(Unicode 14.0追补)(2个):&#x2A6DE;(U+2A6DE)
* 中日韩统一表意文字扩展区C(Unicode 14.0追补)(4个):&#x2B736;(U+2B736)
* 中日韩统一表意文字扩展区H(Unicode 15.0)(4 192个):&#x315EF;(U+315EF)、&#x31D90;(U+31D90)
* 中日韩统一表意文字扩展区C(Unicode 15.0追补)(1个):&#x2B739;(U+2B739)
* 中日韩统一表意文字扩展区I(Unicode 15.1,通称“公安人口信息专用字库补充汉字”)(622个):&#x2ED05;(U+2ED05)


== 模板 ==
== 模板 ==
{{seealso|Template:CJK-New-Char}}
{{seealso|Template:CJK-New-Char}}


如果條目的標題或正文使用了Unicode擴展漢字,請加入以下模板:
如果條目的標題或正文使用了Unicode 1.0.1版规定的20 902个汉字以外的任何其他汉字,請加入以下模板:


:{{tlx|CJK-New-Char}}會顯示{{CJK-New-Char}}
:{{tlx|CJK-New-Char}}會顯示{{CJK-New-Char}}