中文输入法

本页使用了标题或全文手工转换,现处于中国大陆简体模式
求闻百科,共笔求闻

中文输入法是指为了汉字输入计算机手机等电子设备而采用的编码方法,是中文信息处理的重要技术。一般可分类作拼音输入法(如:汉语拼音输入法、注音输入法、粤拼输入法、日语假名输入法)、字形输入法(如:仓颉、大易、五笔、郑码、表形码、九方),以及混合音、形两者的音形码输入法。

中文输入法是从1980年代发展起来的,中间为几个阶段:单字输入、词语输入、整句输入。对于中文输入法的要求是以单字输入为基础达到全面覆盖;以词语输入为主干达到快速易用;整句输入还处于发展之中。

输入原理

从汉字的逻辑构造上看,汉字并不能像英文字母那样被分成少量的元素单位,从而不能进行以文字构造为基本单位的分类归放、处理等。虽然汉字可以分成不同的部首、偏旁等文字基本构件,但是被分成的基本构件数量过多并且基本构件在组成汉字时的位置、方位、朝向都将决定汉字的构成(例如“昌”跟“昍”,“员”跟“呗”,“江”跟“汞”)。这大大限制了中文汉字直接以汉字本身的构造进行快速录入速度,根据汉字的构造输入的方法例如有五笔字型输入法仓颉输入法呒虾米输入法

由于中文汉字的构造特性,汉字的字形输入显得繁琐。这也从而派生出字音输入法等其它转码输入法。

音转码对汉字的读音要求比较准确,而汉字又是语素文字。字音输入法并不能直观的反映汉字的特点,并且汉字重音字、多音字比较多,这客观上对字音输入汉字的方法有一定的障碍。

历史

国立交通大学的一套试验汉字键盘。

由于汉字数以万计(截至2020年Unicode13.0中便有92,857个字符(广义上是指中日韩统一表意文字)。占到了Unicode13.0中的143,924字符的64.52%),电脑键盘不可能为每一个汉字而造一个按键。因此,人们需要替汉字编输入码(检索出汉字的代码),用数个键来输入一个汉字。此外,虽然使用特殊键盘输入,可达每分600字以上的速度[1][2],但由于电脑键盘之普及,普通日常使用仍以电脑键盘为主。

中文输入法的发展过程,是“万码奔腾”的过程,在20年间出现了上千种编码方法。汉字的单字输入分为几类:音码、形码、形音码、音形码、无理码等。注意输入法编码,与汉字内码区分,内码以GB 2312-80、GB18030-2005、GBK、Big5、Unicode等内码为基础。

因为使用汉字正简的不同,汉字计算机软件市场经常被分成两个不同的市场:简体字用户(中国大陆)和繁体字用户()。大陆计算机用户一般都会汉语拼音,所以拼音起源的输入法在大陆很普遍。在台湾,注音输入法比较流行,但市场上也有很多其他种类的输入法,如仓颉行列,香港等粤语地区也流行粤语拼音输入法。

随着地理环境交流的发展,中文输入法不断扩充字符集(或包含汉字数),以达到繁体字简体字生僻字通用的目的。主流形码输入法为了解决字符数扩充导致重码数增加的问题,大都推出了新版字根布局系统(如98五笔郑码仓颉输入法六代等),取码方式及拆字方法没有变化或变化不大。其中字根布局系统为了解决字根过多易产生重码的问题而向字根双编码(如郑码)及用已有字根组合新字根(如仓颉码)两个方向发展;取码方式及拆字方法则希望可以更多取到字形的整体结构而非仅开头部分。

简体中文键盘输入法

简体中文输入法大部分可以分为三类:拼音输入法形码输入法(如:五笔郑码表形码)和音形码输入法(如:二笔自然码)。智能ABC身兼两种输入法既可以纯拼音输入又可以音形码输入,绝大部分的输入法软件都采用上述的汉字编码方法。见中文输入法列表

汉语拼音输入法

汉语拼音输入法是利用汉字读音汉语拼音)进行输入的一类汉字输入法。拼音输入法有几种输入方案包括全拼双拼。市场上有许多用拼音作基础的输入软件。绝大多数中文操作系统均附带汉语拼音输入法,如内置于Windows操作系统中的智能ABC(已停止更新)和微软拼音。此外互联网早期时代还有紫光拼音拼音加加拼音之星智能狂拼黑马神拼等输入法,在之后由中国互联网公司开发的搜狗拼音QQ拼音百度输入法等输入法较为流行。

其中用于手机的汉语拼音输入法较常见的有:搜狗手机输入法QQ输入法点讯输入法(现为百度手机输入法[3])、讯飞输入法触宝输入法同文输入法谷歌拼音输入法GBoard等。

粤语拼音输入法

粤语输入法是一种利用粤语拼音打字的输入法。

五笔字型输入法

五笔字型输入法王永民在1983年8月发明的一种汉字输入法。

汉字编码的方案很多,但基本依据都是汉字的读音和字形两种属性。五笔字型完全依据笔画和字形特征对汉字进行编码,是典型的“形码”。五笔字型输入法在使用简体中文的地区较广泛,是这些地区最常用的形码输入法。

郑码输入法

郑码输入法是一套字形输入法,其发明人是中国著名文字学家、《英华大词典》主编郑易里教授及其女儿郑珑郑码设计之初便考量繁体、简体字统一编码的需要,在使用同一编码规则情况下,可以输入10万以上繁体、简体汉字。

现今大部分操作系统皆附有郑码输入法。它是简体中文使用地区最常见的形码输入法之一。为了解决繁体字简体字通用的问题,郑码采用字根双编码方式减少字根重码,因采用按特征检索基根和区码方式以及大多采用标准的偏旁部首记忆量增加不大较为易学。

表形码输入法

表形码是由旅居法国的华侨人士陈爱文于80年代发明的中文输入法。

二笔输入法

二笔输入法陈劲松于1992年发明的汉字输入法,分为音形码和全角码两种,其中音形码得到较广泛使用。

二笔输入法将汉字按字形结构分为独体字和合体字;按码长分为一码字(一级简码)、二码字(含简码和全码)、三码字(含简码和全码)和四码字。输入汉字时,第一码取汉字拼音首字母,从第二码起取笔画,每二笔算一码,最多取四码,不足四码应全取,不能取双笔画时就取单笔画。二笔输入法具有规范、易学、快速的特点,也是目前唯一通过中国教育部评审的可以进入中小学教材的汉字输入法。

音形码输入法

音形码输入法是编码方式以拼音(通常为拼音首字母或双拼)加上汉字笔画(偏旁或字根)辅助的输入法,因易学、智能且接近形码的少重码体验等特点而受到部分用户的欢迎,较好的平衡了拼音输入法重码多、输入效率低,而形码输入法学习较困难的情况。

代表输入法有超强快码、二笔输入法(音形版)、自然码、拼音之星谭码、小鹤音形[4]智能ABC

源自中陆

汉语拼音输入法

中国市场上许多汉语拼音输入法内置了繁体中文输入功能,单击这些输入法状态栏的“正简切换”按钮或在设定中切换为繁体模式即可以汉语拼音输入繁体字,但不少汉语拼音输入法经常出现正简转换错误[5]

五笔字型输入法

目前,很多五笔字型输入法均可以输入繁体中文。主要分为两种方式:在支持GBKUnicode字符集的模式中,可以将繁体汉字一样按照五笔的字根进行拆分,如输入“swwi”(木+人+人+末笔为捺杂合型识别码)可打出“来”。另一种方式为打开“繁体输入”开关后,按简体拆分可输出对应的繁体,如在该模式下,输入go(简体“来”的编码)可打出“来”。

郑码输入法、表形码输入法

郑码输入法和表形码输入法均可支持GBK字符集。因为这两种输入法的字根表中包含了拆分繁体字而得的字根,因此它们均可以做到正简通打,而不必打简出正。

内嵌输入法

  • VimIM —— Vim 中文输入法

其他输入法

除了上述常见输入法还有些边缘输入法,使用人数不是很多,流行范围较小,但些许功能更加优秀。

联想输入法

联想输入法是一种以键盘输入区为数字键小键盘区的输入法,曾经主要使用于银行及特殊工作行业内使用过,但现今很少有发现使用。

声韵输入法

声韵输入法用鼠标输入中文。先点击声母,再点击韵母;或先点击韵母,再点击声母,就出现全部同声同韵的字以供选择。声母韵母均用近音字提示,不必记忆。近音检字法和粤音检字法,是声韵输入法的代表。参看外部链接。

手写输入

手写输入法是一种对笔迹进行智能识别以选取汉字的输入法,可以辅助输入一些生僻字。主流的汉语拼音输入法可以通过其官方站点获得手写输入法扩展,也有如“开心逍遥笔”之类独立运行的输入法。

语音输入法

语音输入法

专利与著作权

中文输入法的拆字方法与原则若其符合专利法条件可受到专利权的保护。但是任何人依据同一套拆字方法或原则派生出的编码表是唯一的、都一模一样,所以此编码表不受著作权法保护。[6][7]

功能及质量

商业化、内建与否

通常系统内建的输入法最方便、最泛用。而需要额外安装者次之。除下载或携带安装程序的不便以外,有些系统会限制用户不得安装软件。商业化的输入法除了需要付费,许多地方可能没有安装而造成使用不便;更甚有因公司倒闭而使输入法绝灭,用户只好重新学习新的输入法。目前有少量开源输入法,比如中州韵输入法引擎

易学

通常初学者会考量一个输入法是否易学,以下是一些影响易学性的变量:

  • 字根数目:通常字根数越多,记忆量便增加
  • 编码的合理性:编码较合理,能方便记忆,加快学习速度
  • 口诀:有些编码虽不甚合理,但附有特殊口诀,而容易记忆
  • 取码规则的繁复与否
速度
  • 重码率:重码率越低,免却选字的疑虑,输入速度越快
  • 编码长度:编码越短,输入时间越低。但另一方面,编码长度太短,又会增加重码率。因此好的输入法须获取平衡。
  • 简码:简码可大幅增加常用字的输入速度,但必须额外背诵。因此是否要背简码、简码是否好背,也是考量要点。
容错性
  • 有些输入法可一字多拆,避免一些字体由于主观认知上的差异而拆不出的困扰
  • 有些输入法支持模糊输入,如,如此一来,不会拆字时,便可用模糊的输入方式拆出
符号输入

标点符号在中文文章中相当重要,因此标点符号是否容易输入也至关紧要。 有些输入法除常用标点符号以外,尚可输入较少用的符号,如注音、希腊符号、数学符号、等等。

自由性

有些输入法可自定编码或自定词库,以词定字、以句定词、优化词库,增加灵活性。输入法的学习、记忆功能亦会影响到输入速率及体验,故不少输入法都有动态字频、动态词频。

字库大小

一些输入法只针对常用字编码,导致生僻字不是无法输入,就是难以输入。

人工智能

无论音码、形码、形音码、音形码、无理码输入法在出现重码时期望可以通过人工智能辅助选字。这方面音码因为重码较多,比较迫切,因此做得较好;相比下形码因为重码较少,支持人工智能选字的形码输入法较少,有较大发展空间。

参见

参考资料

  1. 中华人民共和国全国首届速录信息处理大赛,来自上海的专业速录人员刘凤鸣以每分钟打出 648 个汉字的成绩打破了第 47 届国际速联大会上的国际速录比赛汉字看打最高纪录。全国首届速录大赛汉字快打速度破国际速录比赛纪录
  2. 首届全国速录信息处理大赛现场(组图). [2011-06-06]. 
  3. 百度首次证实收购点讯输入法. [2012-02-16]. 
  4. 何海峰. 小鹤双拼输入法. [2014-03-31]. 
  5. 比如“面”。
  6. 专利期间已届满之中文输入法能以著作权保护字碼表吗?. [2012-06-12]. 
  7. 字库侵权,输入法不侵权. [2012-06-12]. 

外部链接

中文输入法

新闻

线上中文输入系统

指南