香港增补字符集

本页使用了标题或全文手工转换,现处于中国大陆简体模式
求闻百科,共笔求闻

香港增补字符集Hong Kong Supplementary Character Set,简称HKSCS)是香港政府基于繁体中文电脑操作环境中最流行的大五码(Big5)之上扩展的字符集标准,是现时香港的中文信息交换内码标准。

字符集所收罗的字,主要包括香港的地名、人名用汉字、粤语汉字异体字,也有小部分简体字。除此之外,此字符集亦把倚天中文系统收录的日语平假名片假名俄语字母包括在内。此字符集由中文界面咨询委员会管理,仍在不断扩编之中。最新版本为HKSCS-2016,收录5,033个字符。

负责机构

负责整套字符集管理的为中文界面咨询委员会(Chinese Language Interface Advisory Committee,CLIAC),简称“中咨会[1]。1999年5月由前资讯科技署成立,现隶属“政府资讯科技总监办公室”。中咨会辖下有两个工作小组:“中文电脑用字工作小组”、“中文资讯科技工作小组”。中文电脑用字工作小组审核待增收字符,纳入和编配码位等工作;中文资讯科技工作小组解决技术问题及与国际标准ISO/IEC 10646(简称ISO 10646)接轨等工作。2015年6月1日,两个小组合并为“中文界面咨询委员会工作小组”。各组成员来自学术界、语言学界、出版界和信息技术界等。

历史

1980年代中期,台湾中文电脑的通内联码为Big5码。1990年代初期,香港电脑应用逐渐普及,而政府各部门也电脑化。和台湾一样,香港也是使用繁体中文的地方,是故也采用了Big5码。可是Big5码本身没有收录香港常用的广东字、一些人名地名用字、一些学科用字,香港用户经常面对缺字的问题。于是,香港政府各部门使用Big5的外字区,自行补上这些字,并在政府内部使用。同时,香港业界也指出本地需要一套标准字符集来作电子文件来往,要求政府颁布标准。到1995年,互联网在香港起步,而政府也推出了自己的网站。个人电脑的中文系统虽然都用Big5码,但都没有政府用的外字,更可能用了自己的外字,使在浏览网页时不能显示正确的字符。香港政府于是把内部使用有3000多字的Big5外字集标准造字档公开,让各界可以下载安装这批字,使电脑能显示正确的字符,并把这套字命名为《政府通用字库》(Government Common Character Set,简称GCCS)。

到了1999年9月,此字集增加到4000多字,并改为现名。后来的人则将这版本返称为“HKSCS-1999”。自其公布以后,香港增补字符集又经历多次修订,版本历史[2]如下:

版本 收录字符 公布时间 备注
GCCS 3,049 1995年
HKSCS-1999 4,702 1999年9月
HKSCS-2001 4,818 2001年12月
HKSCS-2004 4,941 2005年5月
HKSCS-2004+增收字符 4,969 2006年11月
HKSCS-2004+增收字符 5,000 2008年2月
HKSCS-2008 5,009 2009年12月
HKSCS-2016 5,033[3] 2017年5月 不再编配Big5码位

除了增补字符,中咨会亦于2002年公布了《香港电脑汉字楷体字形参考指引》和《香港电脑汉字宋体(印刷体)字形参考指引》供业界参考[4],指引内容为以部件为基础的字形参考写法,希望能推动业界开发符合香港小学及初中教育上惯常书写方式的汉字字体产品。

2016年,中咨会又公布《香港电脑汉字参考字形[5],于字符层面上提供完整的电脑汉字教育参考写法,具体地说明适用于香港的字形形状,比较了香港参考字形与台湾业界习惯和台湾当局教育行政主管部门写法的异同。它并涵盖HKSCS-2016和Big5码字符集里的所有汉字,以补充2002年两份指引的不足之处。文件的研订目标,是希望能清晰显示ISO/IEC 10646国际编码标准中H-列的字形,方便字体生产商开发有关产品。

字符分类

在HKSCS-2004版本,汉字字符共4,500个,其中3,353字可在大型的字典(如《汉语大字典》)中查到,包括简化字、异体字、日语汉字等。其余在各大中文字典中查不到的字中,有粤语方言字(有些可在方言字典及学术著作中查到)、人名、公司名、地方名、变形部首、附形、讹字。有些字来自入境事务处、公司注册处、税务局、地政总署。

各类符号共441个,有汉字笔形、汉语拼音字母、国际音标符号、汉字符件、画表符号、日本平假名、片假名等。

香港增补字符集在此版本起才有画数、部首、粤音等资料给用户参考,还说明方便检索,而非作为规范标准(汉字的部首在不同的字典中,归部也不尽相同)。

和GCCS的关系

  • 注:因为各操作系统里,使用的字体不尽相同,因此下表列出的字符未必符合期望的结果。
已经与Unicode其他字符统一的字符
Unicode (PUA) 字符 Unicode (PUA) 字符 Unicode (PUA) 字符
E01F E026 E05B
E063 E073 E0A5
E0F3 E12E E134
E149 E166 E191
E1BA E1C9 E22C
E22D E230 E266
E286 E2A3 E2BC
E2EF E33A E340
E34F E35A E363
E37C E37F E3C5
E3D7 E3DC E417
E418 E44A E478
E485 E4C5 E4DA
E545 E589 E5D2
E5D3 E5D4 E5D5
E5EB E5F4 E6C6
E727 E7D3 E7FD
E884 E893 EB40
EB42 EB45 EB6E
EB86 EB94 EB9E
EBA9 EBBA EBC9
EBCF EBD2 EBDE
EC01 EC02 EC15
EC5B EC5E ECA6
ED28 ED6E ED7C
ED9E EDA4 EDE7
EDF4 EE3E EE52
EE8E EE98 EE9D
从大型字典中不能验证而且无法与Unicode对应的字符
Unicode (PUA) 字符 Unicode (PUA) 字符 Unicode (PUA) 字符
ED2B ED43 ED73
ED8C EDC9 EDCD
EDDC EDE4 EDF6
EE02 EE06 EE0B
EE2F EE32 EE35
EE3D EE4D EE5E
EE66 EE68 EE8C
EE9A

如上表,第一部分有部分字符是重量单位,例如兙、兛、兝、兞等,在Big5中是以厂商扩展字符形式出现,意即在不同厂商的中文系统里(例如倚天、国乔、IBM大型系统)未必会包含该等字符,所以香港政府另行在Big5造字区安放这些字,造成重复;另外,有些字符在收录时只与Big5正确字存在细微字形差异,例如“𪨶”上方一字从“山”而另一字从“屮”,“静”左下方一字从“月”而另一字从“圆”。研究这些字符可以从旧造字档着手,因为现时在Windows通行的“细明体_HKSCS”字体已经被标准化了。

编码

和Big5的关系

香港增补字符集当初因为是补充Big5的收字不足,使用其外字区而发展的,所以受制于Big5的编码架构,外字的总数最多只能到6217个(每区块157字,有39区块半)。除去已用码位,剩下千余个码位,其中有部分会保留给用户造字。

早期的倚天中文系统国乔中文系统等对造字缺乏管理,而又没有文字专家的审定,因此当时造字很是混乱,有些甚至可能只是临时使用的“错字”(寻遍各大字典、专书也查不到的字,也作幽灵汉字);制作这些中文系统的厂商又对字形、字体缺乏认识,有些字会因为字体不同而字形稍有差别,分别编进了两个码位中。又有同一字有系统区及造字区两个码位,有些联绵词只收其一不收其二;这个问题带到了政府通用字库和香港增补字符集中,字集因要反向兼容而跳过了一些码位。

Big5原来的编码,只有汉字、标点、注音符号等字符及少数图形,后来经过台湾厂商的增收,多了7个“倚天字”(即碁、銹、裏、墻、恒、粧、嫺)及日文的假名,最后这批字符又被香港增补字符集收入。

香港增补字符集所使用的Big5的外字区分几个区段:

  • “造字区一”(FA40—FEFE):早期的GCCS字符集已经填满这一段。
  • “造字区二”(C6A1—C8FE):倚天用了这段来放日文假名等符号。这些符号在HKSCS 1999年的版本被收纳。
  • “造字区三”(8140—A0FE):香港增补字符集把这段开头的(8140—84FE)保留给用户,新增的字符只用其余的码位。
  • “厂商造字区”(F9D6—F9FE):这段开始的七个码位用来存放裏、恒等“倚天字”,之后的码位被微软的繁体中文Windows用来存放制表符号。后来HKSCS 1999年版本将之全部收纳。

可是一般提及HKSCS的文件,包括来自香港政府的,都没有注明HKSCS以外的一般繁体字编码(即是Big5本身)使用哪个版本。Big5在2003年前就只有一个版本,不会造成混淆,但HKSCS-2004的文件仍没有指定Big5部分是2003年之后还是之前的版本,虽然到目前为止并没有任何系统使用Big5-2003。

和ISO 10646/Unicode的关系

1995年的政府通用字库本来是内部使用的,到1999年才成立中咨会专门去负责增收及审核字符的工作,并与ISO 10646接轨。中咨会的成员会把香港增补字符集交到ISO的表意文字小组中,尽量让其所有字符纳入国际标准。表意文字小组会定期开会审议汉字的收纳等工作,成员是来自世界各地的专家。

香港字在Big5-HKSCS内的码位,都能对应到ISO 10646中日韩汉字区段中的码位,或Private Use Area(用户造字区,简称PUA)内。随着版本的更新,造字区的字会逐渐搬到中日韩汉字扩展区内。将所有已纳入的HKSCS字符搬到正式中日韩汉字扩展区段(非PUA区段)的工作在2005年完成,对应于ISO 10646:2003的第一修订版,相应的Unicode版本为Unicode 4.1。

不过,因为目前流传极多使用旧版HKSCS的系统产生出来的文件,为了方便过渡,在HKSCS的定义中,在Unicode PUA所分配的字符位置会予以保留,不会给新加入而且未分配正式Unicode位置的字符使用。

字体提供

最初的香港字,是由早期的台湾厂商(像倚天等)和用户自行造字所得。因为大部分都不合标准和没有流通,所以没有沿用至今。后来,TrueType字体盛行,中文字的厂商都开始加入香港字,但因为是商业性质,没有足够的流通量。另外,在支持超大字库的字体方面,因为HKSCS某些字和大陆GBK码有冲突,厂商经常会因市场关系舍弃一些香港字。

香港政府的“数字21”网页(详见下面的外部链接)有提供由华康授权的香港字参考宋体,但一来是使用条款苛刻而不可能广泛使用,二来是没有推广,致使政府内部人员也不知道这套字体的存在。

目前由商业主导的情况渐有改变,近况如下:

开放源码字体

文鼎科技在1999年发布了四套字体(繁简明体和楷书)给自由软件界,但当中没有香港字。后来高盛华(Arne Götje)发起计划将繁简体合并,称之为 CJK Unifonts。当中,Akar、Zunix等人在2004年末另外发起开源香港常用中文字体计划,将香港字加入CJKUnifonts之内,到了2005年9月1日完成将HKSCS 2004加入CJKUnifonts的工作。目前UMingUKai已收录在各大Linux发行版

商业字体

最早一套宣称支持HKSCS的字体是华康“香港标准楷书”[6]及“香港标准宋体”[7],而最早一套宣称支持HKSCS 2004的字体是华康“金蝶2006 H.K. Edition”[1] ,在2005年11月14日推出。后来文鼎、蒙纳等字体公司亦陆续推出相应的字体产品。

增收字符

“中咨会”会让各界申请新字符,不过要经过审核批准,才会给字符编配码位。而用户自造的字,可视乎需要加入,特别是一些人名地名等会经过互联网发送的字。另外,这些增收的字符不一定能够收录在Unicode之内,例如一些能够表示成Unicode复合字符的字或符号,便不会收录。

另外因为现在余下的Big5兼容码位不多(2005年9月为止只剩487个未用),中文界面咨询委员会已经在2008年3月31日停止为字符提供Big5码位[2],并在之前尽量协助业界和一般用户过渡至Unicode。

操作系统的支持

香港增补字符集开始时只有Windows版本的Big5码,后来与ISO 10646接轨后,才开始在LinuxMac OS等系统中使用。理论上因为ISO 10646已收纳香港增补字符集,任何支持ISO 10646的系统都可使用香港字。但实际上,许多旧的程序内部是使用UCS-2(每个字占2字节)存储字符串,无法表示许多放在基本多文种平面(简称BMP)以外的所有香港字。只有使用UCS-4(每个字占4位组)作为内部存储字符串编码的程序,才能够完整地显示所有香港字。

Windows

显示和处理字符

根据Microsoft的网页,在Windows Vista或以后的版本将不再支持HKSCS-2004的Big5扩展编码(通常称为Big5HKSCS),而只使用Unicode中的香港字支持。

至于HKSCS-2001,可以在微软的网页(请看下面的外部链接)中下载香港增补字符集;它支持Windows 98、NT、2000和XP。可是安装该包和其他软件(例如Office)需要有一定的次序,而且它和别的Big5外字集并不兼容,必须先浏览有关文件方可安装。

输入字符

Windows XP中,内置的仓颉输入法可输入已包括在Unicode 1.1版本内的香港字;新仓颉输入法则不能。

Linux

显示和处理字符

自从glibc 在2000年加入香港字(同时包括Big5hkscs和unicode码两者的转换表)的支持后,就几乎没有再更新过,其中的Big5部分更是来自年代久远的Big5/Unicode转换码表,当中有不少错误之处,令一些文件和网页无论使用Big5还是Big5 HKSCS转换至Unicode都会出现错误。暂时未有任何更新。相反地,如果单是使用Unicode作为系统编码,处理香港字则没有问题。

桌面环境方面,KDE 3.x桌面因为使用QT 3.x,而QT 3.x内部使用UCS-2存储字符,因此KDE 3.x只能有限度地显示少部分香港字。这情况期望在KDE 4.0解决。

GNOME没有这方面的问题,只要是使用Unicode,在2004至2005年间就已经能够显示所有BMP以外的字符。

输入字符

截至2007年3月,支持香港字集的开源输入法有:SCIMOXIM;不支持的有:IIIMFgcin。但有些输入法并非输出Unicode中真正编配给香港字的码位,而是一些造字区的码位,例如SCIM中的仓颉五代输入法便是这样。

Mac OS

显示和处理字符

Mac OS X 10.0至10.2版本支持的版本为HKSCS-1999。10.3、10.4、10.5及最新之10.6支持HKSCS-2001;10.4有部分HKSCS-2004新增字符,但编码对应Unicode私人使用区;10.5及10.6有HKSCS-2004全部新增字符,但只有Unicode(4.1版本)编码。

输入字符

使用Mac OS X内置的中文输入法即可,不属Big5字集的字在选字区旁会有一绿色感叹号[!]提示。

使用地区

除了香港使用香港字以外,现在台湾的中文电脑也有少部分使用它的(如处理常见但Big5未有收录的人名用字,如“堃”和“喆”字;此外,台湾也有自己的一两套外字集,如中国海字集)。而同样使用粤语和繁体字的澳门也有使用这套字集,也许还有其他华语地区会使用。

澳门政府网站、澳广视和很多澳门报纸网站已改用Unicode(UTF-8)编码,因现在大部分系统已支持Unicode和内置相应字体,毋需额外安装包即可显示澳门特有地名用字,如氹仔

派生

日和字集

“日和字集”乃香港增补字符集采用Big5码时期,香港人内木一郎和阿烈开发的True Type Eudc造字档,以兼容香港增补字符集为卖点,增补字集中仍没涵盖的日语假名日本汉字日本国字,有细明体、标楷体、中黑体等配合Windows 95、98、NT等操作系统字体的字款,并附有仓颉、速成等输入法作辅助,以及把字集文档转换至日语编码的转码器工具。

香港增补字符集完全过渡至Unicode编码后,由于日和字集所增补的字符基本上都已有Unicode编码,操作系统字体能直接显示,因此日和字集停止更新。

开源香港常用中文字体计划

社会上有志愿人士开始了一个名为开源香港常用中文字体计划。以CJK UnifontsUMingUKai字体为基础,增补香港增补字符集里的所有字符。

评价

香港增补字符集因为一直需要和Big5码兼容,所以可以说是一套先天不足的字集。它要处理前期许多遗留下来的问题,也有外字字数上限,致使香港特区政府打算在2007年至2008年放弃它的Big5码。如果系统使用Unicode编码,用它反而较好。当今的趋势是使用Unicode,它有足够的字符,几乎可以满足文字学家字典专家的用字要求。但因为兼容性的关系,要将整个系统由使用Big5码转换至Unicode颇费时,因此还会有人暂时不愿意转换。

增收原则更改

《香港增补字符集》自2008年3月31日起更改字符增收原则,新增的字符只会编配ISO 10646国际编码标准内码,不再编配大五码内码。政府信息技术总监办公室表示,全面采用ISO 10646国际编码,可统一编码标准,解决兼容问题。ISO 10646国际编码标准涵盖各种主要语文的字符,包括繁体及简体中文字,提供统一的字符编码标准,方便世界各地的电脑用户。《香港增补字符集》3月31日起更改字符增收原则,在此之前获编配的字符,则不受影响。政府1999年公布《香港增补字符集》,由中文界面咨询委员会负责管理,收纳适用于香港的中文电脑用字,以解决电子通信出现乱码或字符不能正确地显示等问题。

参看

注释

  1. 「中文界面諮詢委員會」網站. [2017-07-17]. 
  2. 有關《香港增補字符集》的問題及解答. [2017-07-17]. 
  3. 存档副本. [2019-07-09]. 
  4. 一套以部件為基礎的字形參考指引. [2017-07-17]. 
  5. 香港電腦漢字參考字形. [2017-07-17]. 
  6. 香港標準楷書全通集. www.rnb.com.hk. [2010-01-07]. 
  7. 華康標準宋體. www.rnb.com.hk. [2010-01-07]. 

外部链接

字符和编码

编码表

字体

参考书籍、文章

  • Lunde, Ken. CJKV Information Processing (paperback) First Edition. O'Reilly and Associates, Inc. 1999: 1128页 [2005-07-17]. ISBN 978-1-56592-224-2 (英语). 
  • Graham, Tony. Unicode: A Primer. Wiley. 2000: 528页. ISBN 978-0-7645-4625-9 (英语). 
  • 竹竹人水. 中文電腦經脈通. 电脑易出版社. 2003年7月. 
  • 伍新华. 中文電腦應用《附95補充字集》. 德嘉书业. 1999年9月. ISBN 978-962-7690-25-2. 
  • Linuxer(现已停刊)2002年9月号:我们的Big5码[永久失效链接],谢东翰
  • 香港星岛日报。2008年4月2日星期三。《增补字符集更改增收原则》:[3]