注意:本條目可能有部分字元無法顯示,若遇此情況請參閱Unicode擴充漢字說明文件。 |
中文輸入法是指為了漢字輸入電腦或手機等電子裝置而採用的編碼方法,是中文資訊處理的重要技術。一般可分類作拼音輸入法(如:漢語拼音輸入法、注音輸入法、粵拼輸入法、日語假名輸入法)、字形輸入法(如:倉頡、大易、五筆、鄭碼、表形碼、九方),以及混合音、形兩者的音形碼輸入法。
中文輸入法是從1980年代發展起來的,中間為幾個階段:單字輸入、詞語輸入、整句輸入。對於中文輸入法的要求是以單字輸入為基礎達到全面覆蓋;以詞語輸入為主幹達到快速易用;整句輸入還處於發展之中。
輸入原理
從漢字的邏輯構造上看,漢字並不能像英文字母那樣被分成少量的元素單位,從而不能進行以文字構造為基本單位的分類歸放、處理等。雖然漢字可以分成不同的部首、偏旁等文字基本構件,但是被分成的基本構件數量過多並且基本構件在組成漢字時的位置、方位、朝向都將決定漢字的構成(例如「昌」跟「昍」,「員」跟「唄」,「江」跟「汞」)。這大大限制了中文漢字直接以漢字本身的構造進行快速錄入速度,根據漢字的構造輸入的方法例如有五筆字型輸入法、倉頡輸入法和嘸蝦米輸入法。
由於中文漢字的構造特性,漢字的字形輸入顯得繁瑣。這也從而衍生出字音輸入法等其它轉碼輸入法。
音轉碼對漢字的讀音要求比較準確,而漢字又是語素文字。字音輸入法並不能直觀的反映漢字的特點,並且漢字重音字、多音字比較多,這客觀上對字音輸入漢字的方法有一定的障礙。
歷史
由於漢字數以萬計(截至2020年Unicode13.0中便有92,857個字元(廣義上是指中日韓統一表意文字)。佔到了Unicode13.0中的143,924字元的64.52%),電腦鍵盤不可能為每一個漢字而造一個按鍵。因此,人們需要替漢字編輸入碼(檢索出漢字的代碼),用數個鍵來輸入一個漢字。此外,雖然使用特殊鍵盤輸入,可達每分600字以上的速度[1][2],但由於電腦鍵盤之普及,普通日常使用仍以電腦鍵盤為主。
中文輸入法的發展過程,是「萬碼奔騰」的過程,在20年間出現了上千種編碼方法。漢字的單字輸入分為幾類:音碼、形碼、形音碼、音形碼、無理碼等。注意輸入法編碼,與漢字內碼區分,內碼以GB 2312-80、GB18030-2005、GBK、Big5、Unicode等內碼為基礎。
因為使用漢字正簡的不同,漢字電腦軟件市場經常被分成兩個不同的市場:簡體字用戶(中國大陸)和繁體字用戶(台港澳)。大陸電腦用戶一般都會漢語拼音,所以拼音起源的輸入法在大陸很普遍。在台灣,注音輸入法比較流行,但市場上也有很多其他種類的輸入法,如倉頡、行列,香港等粵語地區也流行粵語拼音輸入法。
隨着地理環境交流的發展,中文輸入法不斷擴充字元集(或包含漢字數),以達到繁體字、簡體字與生僻字通用的目的。主流形碼輸入法為了解決字元數擴充導致重碼數增加的問題,大都推出了新版字根佈局系統(如98五筆、鄭碼、倉頡輸入法六代等),取碼方式及拆字方法沒有變化或變化不大。其中字根佈局系統為了解決字根過多易產生重碼的問題而向字根雙編碼(如鄭碼)及用已有字根組合新字根(如倉頡碼)兩個方向發展;取碼方式及拆字方法則希望可以更多取到字形的整體結構而非僅開頭部分。
簡體中文鍵盤輸入法
簡體中文輸入法大部分可以分為三類:拼音輸入法、形碼輸入法(如:五筆、鄭碼、表形碼)和音形碼輸入法(如:二筆、自然碼)。智能ABC身兼兩種輸入法既可以純拼音輸入又可以音形碼輸入,絕大部分的輸入法軟件都採用上述的漢字編碼方法。見中文輸入法列表。
漢語拼音輸入法
漢語拼音輸入法是利用漢字的讀音(漢語拼音)進行輸入的一類漢字輸入法。拼音輸入法有幾種輸入方案包括全拼和雙拼。市場上有許多用拼音作基礎的輸入軟件。絕大多數中文作業系統均附帶漢語拼音輸入法,如內建於Windows作業系統中的智能ABC(已停止更新)和微軟拼音。此外互聯網早期時代還有紫光拼音、拼音加加、拼音之星、智能狂拼、黑馬神拼等輸入法,在之後由中國互聯網公司開發的搜狗拼音、QQ拼音、百度輸入法等輸入法較為流行。
其中用於手機的漢語拼音輸入法較常見的有:搜狗手機輸入法、QQ輸入法、點訊輸入法(現為百度手機輸入法[3])、訊飛輸入法、觸寶輸入法、同文輸入法、Google拼音輸入法、GBoard等。
粵語拼音輸入法
粵語輸入法是一種利用粵語拼音打字的輸入法。
五筆字型輸入法
五筆字型輸入法是王永民在1983年8月發明的一種漢字輸入法。
漢字編碼的方案很多,但基本依據都是漢字的讀音和字形兩種屬性。五筆字型完全依據筆畫和字形特徵對漢字進行編碼,是典型的「形碼」。五筆字型輸入法在使用簡體中文的地區較廣泛,是這些地區最常用的形碼輸入法。
鄭碼輸入法
鄭碼輸入法是一套字形輸入法,其發明人是中國著名文字學家、《英華大詞典》主編鄭易里教授及其女兒鄭瓏。鄭碼設計之初便考量繁體、簡體字統一編碼的需要,在使用同一編碼規則情況下,可以輸入10萬以上繁體、簡體漢字。
現今大部份作業系統皆附有鄭碼輸入法。它是簡體中文使用地區最常見的形碼輸入法之一。為了解決繁體字與簡體字通用的問題,鄭碼採用字根雙編碼方式減少字根重碼,因採用按特徵檢索基根和區碼方式以及大多採用標準的偏旁部首記憶量增加不大較為易學。
表形碼輸入法
表形碼是由旅居法國的華僑人士陳愛文於80年代發明的中文輸入法。
二筆輸入法
二筆輸入法是陳勁松於1992年發明的漢字輸入法,分為音形碼和全形碼兩種,其中音形碼得到較廣泛使用。
二筆輸入法將漢字按字形結構分為獨體字和合體字;按碼長分為一碼字(一級簡碼)、二碼字(含簡碼和全碼)、三碼字(含簡碼和全碼)和四碼字。輸入漢字時,第一碼取漢字拼音首字母,從第二碼起取筆畫,每二筆算一碼,最多取四碼,不足四碼應全取,不能取雙筆畫時就取單筆畫。二筆輸入法具有規範、易學、快速的特點,也是目前唯一通過中國教育部評審的可以進入中小學教材的漢字輸入法。
音形碼輸入法
音形碼輸入法是編碼方式以拼音(通常為拼音首字母或雙拼)加上漢字筆畫(偏旁或字根)輔助的輸入法,因易學、智能且接近形碼的少重碼體驗等特點而受到部分用戶的歡迎,較好的平衡了拼音輸入法重碼多、輸入效率低,而形碼輸入法學習較困難的情況。
代表輸入法有超強快碼、二筆輸入法(音形版)、自然碼、拼音之星譚碼、小鶴音形[4]和智能ABC等
源自中陸
漢語拼音輸入法
中國市場上許多漢語拼音輸入法內建了繁體中文輸入功能,單擊這些輸入法狀態列的「正簡切換」按鈕或在設定中切換為繁體模式即可以漢語拼音輸入繁體字,但不少漢語拼音輸入法經常出現正簡轉換錯誤[5]。
五筆字型輸入法
目前,很多五筆字型輸入法均可以輸入繁體中文。主要分為兩種方式:在支援GBK或Unicode字元集的模式中,可以將繁體漢字一樣按照五筆的字根進行拆分,如輸入「swwi」(木+人+人+末筆為捺雜合型辨識碼)可打出「来」。另一種方式為打開「繁體輸入」開關後,按簡體拆分可輸出對應的繁體,如在該模式下,輸入go(簡體「来」的編碼)可打出「来」。
鄭碼輸入法、表形碼輸入法
鄭碼輸入法和表形碼輸入法均可支援GBK字元集。因為這兩種輸入法的字根表中包含了拆分繁體字而得的字根,因此它們均可以做到正簡通打,而不必打簡出正。
內嵌輸入法
- VimIM —— Vim 中文輸入法
其他輸入法
除了上述常見輸入法還有些邊緣輸入法,使用人數不是很多,流行範圍較小,但些許功能更加優秀。
聯想輸入法
聯想輸入法是一種以鍵盤輸入區為數字鍵小鍵盤區的輸入法,曾經主要使用於銀行及特殊工作行業內使用過,但現今很少有發現使用。
聲韻輸入法
聲韻輸入法用滑鼠輸入中文。先點擊聲母,再點擊韻母;或先點擊韻母,再點擊聲母,就出現全部同聲同韻的字以供選擇。聲母韻母均用近音字提示,不必記憶。近音檢字法和粵音檢字法,是聲韻輸入法的代表。參看外部連結。
手寫輸入
手寫輸入法是一種對筆跡進行智能辨識以選取漢字的輸入法,可以輔助輸入一些生僻字。主流的漢語拼音輸入法可以通過其官方站點獲得手寫輸入法擴充,也有如「開心逍遙筆」之類獨立執行的輸入法。
語音輸入法
專利與著作權
中文輸入法的拆字方法與原則若其符合專利法條件可受到專利權的保護。但是任何人依據同一套拆字方法或原則衍生出的編碼表是唯一的、都一模一樣,所以此編碼表不受著作權法保護。[6][7]
功能及質素
- 商業化、內建與否
通常系統內建的輸入法最方便、最泛用。而需要額外安裝者次之。除下載或攜帶安裝程式的不便以外,有些系統會限制用戶不得安裝軟件。商業化的輸入法除了需要付費,許多地方可能沒有安裝而造成使用不便;更甚有因公司倒閉而使輸入法絕滅,用戶只好重新學習新的輸入法。目前有少量開源輸入法,比如中州韻輸入法引擎。
- 易學
通常初學者會考量一個輸入法是否易學,以下是一些影響易學性的變數:
- 字根數目:通常字根數越多,記憶量便增加
- 編碼的合理性:編碼較合理,能方便記憶,加快學習速度
- 口訣:有些編碼雖不甚合理,但附有特殊口訣,而容易記憶
- 取碼規則的繁複與否
- 速度
- 重碼率:重碼率越低,免卻選字的疑慮,輸入速度越快
- 編碼長度:編碼越短,輸入時間越低。但另一方面,編碼長度太短,又會增加重碼率。因此好的輸入法須取得平衡。
- 簡碼:簡碼可大幅增加常用字的輸入速度,但必須額外背誦。因此是否要背簡碼、簡碼是否好背,也是考量要點。
- 容錯性
- 有些輸入法可一字多拆,避免一些字型由於主觀認知上的差異而拆不出的困擾
- 有些輸入法支援模糊輸入,如*、?,如此一來,不會拆字時,便可用模糊的輸入方式拆出
- 符號輸入
標點符號在中文文章中相當重要,因此標點符號是否容易輸入也至關緊要。 有些輸入法除常用標點符號以外,尚可輸入較少用的符號,如注音、希臘符號、數學符號、等等。
- 自由性
有些輸入法可自訂編碼或自訂詞庫,以詞定字、以句定詞、最佳化詞庫,增加靈活性。輸入法的學習、記憶功能亦會影響到輸入速率及體驗,故不少輸入法都有動態字頻、動態詞頻。
- 字庫大小
一些輸入法只針對常用字編碼,導致生僻字不是無法輸入,就是難以輸入。
- 人工智能
無論音碼、形碼、形音碼、音形碼、無理碼輸入法在出現重碼時期望可以通過人工智能輔助選字。這方面音碼因為重碼較多,比較迫切,因此做得較好;相比下形碼因為重碼較少,支援人工智能選字的形碼輸入法較少,有較大發展空間。
參見
參考資料
- ↑ 中華人民共和國全國首屆速錄資訊處理大賽,來自上海的專業速錄人員劉鳳鳴以每分鐘打出 648 個漢字的成績打破了第 47 屆國際速聯大會上的國際速錄比賽漢字看打最高紀錄。全國首屆速錄大賽漢字快打速度破國際速錄比賽紀錄
- ↑ 首届全国速录信息处理大赛现场(组图). [2011-06-06].
- ↑ 百度首次证实收购点讯输入法. [2012-02-16].
- ↑ 何海峰. 小鹤双拼输入法. [2014-03-31].
- ↑ 比如「面」。
- ↑ 专利期间已届满之中文输入法能以著作权保护字碼表吗?. [2012-06-12].
- ↑ 字库侵权,输入法不侵权. [2012-06-12].
外部連結
中文輸入法
新聞
線上中文輸入系統
- 網上中文輸入法
- 近音檢字法
- 粵音檢字法(繁體中文)
- 六碼筆畫輸入法 (繁體中文)
- InputKing
- Online Chinese IME(簡單易用的基於全拼輸入法的線上中文輸入系統,字詞庫近6萬)
- 百度線上輸入法
- 線上試用 Google 輸入工具(支援線上輸入簡體中文及繁體中文)
- Google 輸入工具(Google Chrome線上輸入擴充)
- Universal Text Input(含中文線上輸入功能)
- 網.蝦米 Hyper Liu , 2008-01-30
- 網.蝦米 Hyper Liu - 行易有限公司
- 華語web ime(繁體中文)