2023年8月1日實施的中華人民共和國國家標準《資訊科技 中文編碼字元集》(GB 18030-2022)一方面是Unicode的完全對應編碼,另一方面也對包括求聞百科(網站及基礎設施)及閱讀、編輯求聞百科所使用的軟體、瀏覽器等的漢字支持程度提出了新的要求。
求聞百科所使用的共筆軟體系統、資料庫等不是漢字敏感的,亦即,其能接受並傳輸任何Unicode字元,包括GB 18030-2022、其第1號修改單(預計於2024年內發布)、後續修改單以及Unicode目前及今後規定的全部漢字、少數民族文字和全世界其他各民族使用的文字。求聞百科所使用的資料庫表為「MariaDB utf8mb4」格式,支持儲存整個Unicode編碼空間內的全部字元。求聞百科唯一的漢字敏感的組件是提供「分類內按拼音排序」功能的擴充,其將按Unicode修訂計劃定期更新。因此,讀者、編者所使用的作業系統、瀏覽器、字型字庫等對GB 18030-2022及Unicode的支持對能否正常顯示漢字至關重要。然而非常令人遺憾的是,由於Unicode的更新速度非常快,市面上的絕大多數裝置和瀏覽器都有機會出現缺字的情形,導致字元顯示為方格、亂碼、內碼方塊、問號或空格等,影響使用者使用體驗。
除此之外,Unicode將大部分在來源編碼中分開編碼,但按漢字統一標準同屬一字的漢字分入「相容漢字」區,以便達成無損來回轉換。除了專門處理某來源編碼「一字多形」的字型之外,大部分字型都將相容區的漢字按其對應的普通字形呈現。因此,若想要分開顯示JIS X 0213:2004中「賓」(U+8CD3)的舊字形「賓」(U+FA64),就需要安裝特殊字型。[1]
要找出這些字,可到下面的「Unicode編碼表」,或到Unicode Consortium網站參閱他們的PDF檔案。
|
|
測試
本章節用於Unicode漢字顯示情況相關的展示。如果您的裝置缺少相關的字型,會顯示為方框。
GB 18030-2022 實現級別1
合計27 570個漢字及14個漢字部首,外加9個在GB 18030-2005中存在,但在GB 18030-2022中刪去的漢字位置。
- 中日韓統一表意文字(Unicode 1.0.1)(20 902個):北(U+5317)、晈(U+6648)、藐(U+85D0)、針(U+91DD)
- 位於GB 18030-2022雙位元組區的中日韓統一表意文字(Unicode 4.1追補)(8個):龵(U+9FB5)
- 位於GB 18030-2022雙位元組區的中日韓統一表意文字擴充區A(Unicode 3.0)(52個):㘎(U+360E)
- 位於GB 18030-2022雙位元組區的中日韓漢字部首補充(Unicode 3.0)(14個):⺈(U+2E88)
- 位於GB 18030-2022雙位元組區的中日韓相容表意文字(Unicode 1.0.1)(12個):﨔(U+FA14)
- 位於GB 18030-2022雙位元組區的中日韓相容表意文字(Unicode 1.0.1)(9個——為保證與GB 18030-2005相容而留空):涼(U+F979)
- 位於GB 18030-2022四位元組區的中日韓統一表意文字(Unicode 4.1追補)(14個):龯(U+9FAF)
- 中日韓統一表意文字(Unicode 5.1追補)(8個):鿁(U+9FC1)
- 中日韓統一表意文字(Unicode 5.2追補)(8個):鿈(U+9FC8)
- 中日韓統一表意文字(Unicode 6.1追補)(1個):鿌(U+9FCC)
- 中日韓統一表意文字(Unicode 8.0追補,通稱「急用漢字」)(3個):鿎(U+9FCE)
- 中日韓統一表意文字(Unicode 8.0追補)(6個):鿔(U+9FD4)
- 中日韓統一表意文字(Unicode 10.0追補)(21個):鿦(U+9FE6)
- 中日韓統一表意文字(Unicode 11.0追補)(5個):鿬(U+9FEC)、鿮(U+9FEE)
- 位於GB 18030-2022四位元組區的中日韓統一表意文字擴充區A(Unicode 3.0)(6 530個):㐀(U+3400)、䏌(U+43CC)
GB 18030-2022 實現級別2
通稱「BMP外196字」,見《通用規範漢字表》。實現級別1與實現級別2總計27 766個漢字及14個漢字部首。
- 位於中日韓統一表意文字擴充區B(Unicode 3.1)的通用規範漢字(36個):𠳐(U+20CD0)、𥻗(U+25ED7)、𩾌(U+29F8C)
- 位於中日韓統一表意文字擴充區C(Unicode 5.2)的通用規範漢字(44個):𪨶(U+2AA36)、𫚕(U+2B695)
- 位於中日韓統一表意文字擴充區D(Unicode 6.0)的通用規範漢字(8個):𫠆(U+2B806)
- 位於中日韓統一表意文字擴充區E(Unicode 8.0)的通用規範漢字(108個):𫰛(U+2BC1B)、𬉼(U+2C27C)、𬬿(U+2CB3F)、𬶠(U+2CDA0)
GB 18030-2022 實現級別3
實現級別1、實現級別2與實現級別3總計87 887個漢字及228個漢字部首。由於這一數字超過了OpenType單個字型字元數的上限(65 535個),因此您需要使用同一字型組的多個字型,或者使用OpenType字型集。
- 康熙部首(Unicode 3.0)(214個):⼳(U+2F33)、⾔(U+2F94)
- 位於中日韓統一表意文字擴充區B(Unicode 3.1)的非通用規範漢字(42 675個):𡈈(U+21208)、𤁾(U+2407E)、𦿅(U+26FC5)、𩻭(U+29EED)
- 位於中日韓統一表意文字擴充區C(Unicode 5.2)的非通用規範漢字(4 105個):𪠅(U+2A805)、𪿾(U+2AFFE)、𫐕(U+2B415)
- 位於中日韓統一表意文字擴充區D(Unicode 6.0)的非通用規範漢字(214個):𫝾(U+2B77E)
- 位於中日韓統一表意文字擴充區E(Unicode 8.0)的非通用規範漢字(5 654個):𫤖(U+2B916)、𬄀(U+2C100)、𬫿(U+2CAFF)
- 中日韓統一表意文字擴充區F(Unicode 10.0)(7 473個):𬼳(U+2CF33)、𭤯(U+2D92F)、𮜀(U+2E700)
GB 18030-2022 第1號修改單對實現級別3的補充
總計97 680個漢字及228個部首。
- 中日韓統一表意文字(Unicode 13.0追補)(13個):鿴(U+9FF4)
- 中日韓統一表意文字擴充區A(Unicode 13.0追補)(10個):䶹(U+4DB9)
- 中日韓統一表意文字擴充區B(Unicode 13.0追補)(7個):𪛘(U+2A6D8)
- 中日韓統一表意文字擴充區G(Unicode 13.0)(4 939個):𰝵(U+30775)、𰳾(U+30CFE)
- 中日韓統一表意文字(Unicode 14.0追補)(3個):鿾(U+9FFE)
- 中日韓統一表意文字擴充區B(Unicode 14.0追補)(2個):𪛞(U+2A6DE)
- 中日韓統一表意文字擴充區C(Unicode 14.0追補)(4個):𫜶(U+2B736)
- 中日韓統一表意文字擴充區H(Unicode 15.0)(4 192個):𱗯(U+315EF)、𱶐(U+31D90)
- 中日韓統一表意文字擴充區C(Unicode 15.0追補)(1個):𫜹(U+2B739)
- 中日韓統一表意文字擴充區I(Unicode 15.1,通稱「公安人口資訊專用字庫補充漢字」)(622個):(U+2ED05)
模板
如果條目的標題或正文使用了Unicode 1.0.1版規定的20 902個漢字以外的任何其他漢字,請加入以下模板:
模板链接:{{CJK-New-Char}}
會顯示模板链接:{{CJK-New-Char|漢字16進位編碼}}
,以9FEB作參數則顯示:模板链接:{{CJK-New-Char|漢字16進位編碼|block=A}}
,指明該字為擴充A區漢字:模板链接:{{CJK-New-Char|漢字16進位編碼|block=B}}
,指明該字為擴充B區漢字:模板链接:{{CJK-New-Char|漢字16進位編碼|block=C}}
,指明該字為擴充C區漢字:模板链接:{{CJK-New-Char|漢字16進位編碼|block=D}}
,指明該字為擴充D區漢字:模板链接:{{CJK-New-Char|漢字16進位編碼|block=E}}
,指明該字為擴充E區漢字:模板链接:{{CJK-New-Char|漢字16進位編碼|block=F}}
,指明該字為擴充F區漢字:模板链接:{{CJK-New-Char|漢字16進位編碼|block=G}}
,指明該字為擴充G區漢字:模板链接:{{CJK-New-Char|漢字16進位編碼|ver=麻將符號}}
,指明該字元為麻將字元:模板链接:{{CJK-New-Char|第1個字的編碼|第2個字的編碼|...}}
,以同一模板顯示超過1個字(最多20個字):
對於使用越南語原生文字喃字的條目,加入模板链接:{{NomText}}
:
對於使用JIS X 0213:2004新收錄漢字的條目,加入模板链接:{{JIS2004}}
:
支持大字集的字型
若系統不能正確顯示相關字元,請嘗試從下面選擇一個字型安裝:
名稱 | 字形標準 | 開源 | Unicode支援部份 | 註釋 |
---|---|---|---|---|
華康標準宋體 | 中國台灣 | ❌ | 基本區、擴充A區、香港增補字符集(HKSCS) | |
微軟正黑體 | 基本區、擴充A區 | 可在Windows Vista安裝光碟、安裝Office 2007、Visual Studio 2010等新版軟體或微軟官方網站上取得這兩種字型。 下載Windows XP簡體中文ClearType字庫 下載Traditional Chinese ClearType fonts for Windows XP | ||
微軟雅黑 | 中國大陸 | 基本區、擴充A區全部漢字,擴充B區、C區、D區、E區的一部分漢字(僅限於《通用規範漢字表》內[a]) | ||
微軟GB18030 Support Package | 基本區、擴充A區 | 安裝後會添加4位元組字元集編碼支持外掛程式和Simsun-18030字型以顯示A區漢字。 | ||
冬青黑體簡體中文 | 基本區、擴充A區 | 由字游工房和漢儀設計,並內建於macOS。 | ||
天珩字庫 | 中國大陸、中國台灣、中國香港、日本、韓國 | 與Unicode同步更新,《TH-Tshyn》已支持顯示全部Unicode15.1字元,包括14餘萬漢字〔基本區及擴充A、B、C、D、E、F、G、H、I區(含增補)〕。 字庫以《Unicode Charts》為準修正了大量漢字字形,如“膥”、“槩”、“肞”、“褝”等。 |
以中易宋體、思源黑體、花園明朝等字形風格為基礎製作,《TH-Tshyn》中的TH-Times.ttc支持複雜文種(如傳統蒙古文)的正確顯示。 | |
Han Nom Fonts(漢喃明) | 越南(喃字) | 基本區、部分擴充A區、B區漢字 | 越學院的Han Nom字型高解析度版本。 | |
Nôm Na Tống(喃那宋) | 字形受到一些越南古籍的影響。 下載連結 | |||
花園明朝 | 日本(JIS X 0213:2004) | 基本區、擴充A區、B區、C區、D區、E區,表意文字異體資料庫(IVD)Adobe-Japan1集合、Hanyo-Denshi集合,平假名,片假名,變體假名,諺文字母及音節,太玄經符號,算籌數字,易經六十四卦符號,麻將牌,盲文圖案 該字型分成HanaMinA(花園明朝A)、HanaMinB(花園明朝B)兩部分,其中HanaMinA僅對中日韓統一表意文字區及其擴充A區提供全面支持,HanaMinB提供了對B區、C區、D區、E區、F區的完整支持。 |
從OSDN下載 | |
FZKaiS-Extended | 中國大陸 | ❌ | 基本區、擴充A區 | 由北大方正依楷體風格設計的大字元集字型。 |
FZKaiS-Extended(SIP) | 擴充B區 | 可分別配合FZKaiS-Extended使用。 | ||
方正宋體S-超大字元集 | 基本區、擴充A區 | 由北大方正依宋體風格設計的大字元集字型。 | ||
方正宋體S-超大字元集(SIP) | 擴充B區 | 配合方正宋體S-超大字元集使用。 | ||
BabelStone Han | 基本區、擴充A區、B區、E區、G區中的部份字元,擴充C區、D區和F區的所有字元 | 由漢學家魏安基於文鼎PL細上海宋修改,下載連結 | ||
文泉驛開源中文計劃 | 完整覆蓋GB2312、Big5以及GBK標準字元集 | |||
思源黑體[1] Noto Sans CJK[2] |
簡體版:中國大陸 | 完整基本區、擴充A區,擴展B~E區中規範漢字(即全部《通用規範漢字表》內字) | 由Google和Adobe聯合開發並各自推出 | |
繁體版:台灣、香港 | A區、B區中部分常用字 | |||
完整版 | 完整基本區、擴充A區,擴展B~F區中的部份常用字 | |||
蘋方 | 蘋方-簡:中國大陸 | ❌ | 完整基本區、擴充A區,擴展B~E區中的部分常用字 | 由Apple委託華康設計,內建於iOS、macOS、watchOS和tvOS,隨系統更新而更新 |
蘋方-繁:台灣地區 | 擴展A~E區中的部分常用字。可配合蘋方-簡使用 | |||
蘋方-港:香港特別行政區 | ||||
851手寫雜字型 | 不定,主要為日本 | 基本區、擴充A區、B區、C區、D區、E區中的中、日文常用字(完全覆蓋《通用規範漢字表》) | 手寫字型。 | |
遍黑體 | 中國大陸 | 完整擴充C區、D區、G區、H區,基本區、擴充A區增補部分,少量其他擴充區漢字和非漢字字元 | 基於思源黑體修改而成。 | |
源樣黑體 | 舊字形(非任何現實地區標準) | 完整基本區、擴充A區,擴充B區、C區、D區、E區、F區中的部份常用字,特製臺灣閩客字、適應繁體中文的在地化改進 | 基於韓文版本的漢字傳承字形修改而成。 | |
一點明體 | 傳承字形(非任何現實地區標準) | 基本區、擴充A區、B區、C區、D區、E區、F區、G區中的中、日文常用字,香港字、臺灣閩客字,假名和擴展假名,粵語和臺灣方音注音符號,部首、漢字筆畫,麻雀牌、中國象棋、中國算籌、中式「正」字計數符號、八卦符號、易經六十四卦符號、太玄經符號等字元 | 完全覆蓋《通用規範漢字表》所有漢字及對應繁體字。 |
- 注意:表格中「字形標準」欄指的是該字型設計所符合的字形標準,並非其能顯示的漢字範圍,例如標明了「中國大陸」的字型亦能顯示繁體中文(但是會以中國大陸的繁體字字形標準顯示)。字型支援的編碼範圍,見「支援部份」欄。
輔助工具
- BabelMap或BabelMap線上版及BabelPad(這裡有一個漢化版)
- 可直接鍵入Unicode內碼、或使用拼音或部首找字,然後把文字粘貼到瀏覽器
- Unicode Unihan Database (英文)
- 可使用拼音或部首找字
- 字形維基Glyphwiki (日語)(繁體中文)(簡體中文)
- 製作字形檔案時可以使用這個網站上的字形圖片(推薦使用svg格式)
- 字海網或葉典網 (簡體中文)
- 字統網 (簡體中文)
- 漢字源、形、音、義、碼資料庫整合站點。收錄字形19.7萬、字義15.6萬(《説文解字》《康熙字典》等)、字理字源14.4萬(《字源》《漢語多功能字庫》等)、超227萬筆音韻數據〔5地標准音、18本韻書(《廣韻》《集韻》《蒙古字韻》《洪武正韻》等)、10種上古音方案、450餘方言點〕。同時還提供歷代書法資源和動態組字工具。
- 古今文字整合(簡體中文)及開放古文字字形字庫 (繁體中文)
- 可以透過多種檢索方式查詢大量古、今漢字以及類漢字(如西夏文、契丹文、女真文)釋義、字形更革、音韻演變的大型線上辭書。
- 漢典 (簡體中文)
- 可以透過部首、拼音找字,生僻字有圖片、文字轉換功能,包含《説文解字》《康熙字典》字書內容。
- 異體字字典 (繁體中文)
- 可以通過筆畫、部首檢索中日韓用漢字正字、異體字,網站使用了大量字形圖片,收錄超過10萬字
- 國際電腦漢字及異體字知識庫 (繁體中文)
- 可以透過部首、部件、相似字、UNICODE編碼找字。
- 漢語多功能字庫 (繁體中文)
- 可提供歷史字形、字源字理、音韻學語言學等數據資料,詳見使用凡例
- 姓名生僻字處理平台(簡體中文)
- 致力於解決姓名生僻字的社會應用問題,有生僻字查詢、登記、Unicode轉漢字等工具
注釋
- ↑ 即包括:𠅤𠙶𠳐𡎚𡐓𣗋𣲗𣲘𣸣𤧛𤩽𤫉𥔲𥕢𥖨𥻗𦈡𦒍𦙶𦝼𦭜𦰡𧿹𨐈𨙸𨚕𨟠𨭉𨱇𨱏𨱑𨱔𨺙𩽾𩾃𩾌𪟝𪣻𪤗𪨰𪨶𪩘𪾢𫄧𫄨𫄷𫄸𫇭𫌀𫍣𫍯𫍲𫍽𫐄𫐐𫐓𫑡𫓧𫓯𫓶𫓹𫔍𫔎𫔶𫖮𫖯𫖳𫗧𫗴𫘜𫘝𫘦𫘧𫘨𫘪𫘬𫚕𫚖𫚭𫛭𫞩𫟅𫟦𫟹𫟼𫠆𫠊𫠜𫢸𫫇𫭟𫭢𫭼𫮃𫰛𫵷𫶇𫷷𫸩𬀩𬀪𬂩𬃊𬇕𬇙𬇹𬉼𬊈𬊤𬌗𬍛𬍡𬍤𬒈𬒔𬒗𬕂𬘓𬘘𬘡𬘩𬘫𬘬𬘭𬘯𬙂𬙊𬙋𬜬𬜯𬞟𬟁𬟽𬣙𬣞𬣡𬣳𬤇𬤊𬤝𬨂𬨎𬩽𬪩𬬩𬬭𬬮𬬱𬬸𬬹𬬻𬬿𬭁𬭊𬭎𬭚𬭛𬭤𬭩𬭬𬭯𬭳𬭶𬭸𬭼𬮱𬮿𬯀𬯎𬱖𬱟𬳵𬳶𬳽𬳿𬴂𬴃𬴊𬶋𬶍𬶏𬶐𬶟𬶠𬶨𬶭𬶮𬷕𬸘𬸚𬸣𬸦𬸪𬹼𬺈𬺓
參考資料
- ↑ 從Unicode的本身角度說,新舊字形不應使用「相容功能」表示,而應該通過表意文字變種資料庫中的字尾序列指定。要表示舊字形的「賓」,可以在Adobe-Japan1對照表查到8CD3的E0101號變體,使用(U+8CD3 U+E0101)序列表示。