說明:字詞轉換處理

本页使用了标题或全文手工转换,现处于繁体转换模式
說明頁面

字詞轉換處理是MediaWiki軟件的一項自動轉換操作,目的是為不同地區的用戶顯示不同變體的文本。

求聞百科的讀者和編者來自世界各地,他們所需求或貢獻的中文語言存在許多的差異,像是簡體字繁體字的差異、各地區詞彙的差異、方言差異造成的書面語言的差異等等。這些中文性質集合在一起,稱為「語言變體」。求聞百科並不規範讀者或編者要使用何種語言變體閱讀或編輯,而是嘗試以電腦程式的自動轉換來適應這些差異,讓編者可以以自己的閱讀或編寫習慣提供資料,也讓讀者可以選擇所要的資料的用字遣詞。

語言變體的自動轉換與MediaWiki系統本身的原理有關。大部分編者輸入的文章內容,包括文字和源代碼等等,都會在系統內保留完整不變的源碼,不作自動轉換。讀者使用MediaWiki軟件時,並非直接閱讀源碼,而是由系統將源碼即時自動轉換成合適的形式。語言變體轉換就是眾多自動轉換程序中的一道。自動轉換電腦程式的能力範圍包括所有語言設為「中文」(而非中文的某一具體變體)的頁面。

大多數時候,MediaWiki根據轉換表進行轉換。有的時候,則是根據編者在源碼中指定的方式作自動轉換,即「手動轉換」。轉換表就是一份列出各種不同語言變體之間,字與字或是詞與詞之間的對應關係的表格。目前只有擁有編輯界面權限的用戶組(如管理員、界面管理員)能編輯轉換表。「手動轉換」仍然是在讀者使用時即時作的自動轉換,但是這時程序是根據編者在源碼中指定的方式為優先。編者可以在編輯存檔後切換至其他的語言變體查看情況。

選擇語言變體

目前,MediaWiki系統支持中文的zh(中文,不轉換)、zh-hant(繁體,通用)、zh-tw(中國台灣)、zh-hk(中國香港)、zh-mo(中國澳門),以及zh-hans(簡體,通用)、zh-cn(中國大陸)、zh-sg(新加坡)、zh-my(馬來西亞)九種語言變體。其中,zh(中文,不轉換)、zh-hant(繁體)、zh-hans(簡體)三種模式主要用於維護,不應當直接使用,如需使用需登錄後在偏好設定/小工具/顯示類小工具中去除D 隱藏「不轉換」、「簡體」和「繁體」三個變體轉換標籤 了解更多的複選框才能顯示。編者應該根據其所在地區選擇最具體的語言變體,例如中國大陸的用戶應該選擇zh-cn(大陸簡體)而非zh-hans(簡體)。

內容的語言變體

內容語言變體可以通過如下方式設置:

  • 所有用戶(無論是否已登錄)都可以把URLhttps://www.qiuwenbaike.cn/wiki/条目名称)中的 wiki 改成 zh-xx。對於https://www.qiuwenbaike.cn/index.php 開頭的頁面,可以在URL最後加上 &variant=zh-xx (URL含有 ? 時用)或?variant=zh-xx (URL不含有 ? 時用)。其中 xx 可為 hanshantcntwhkmosgmy
  • 已登入的用戶可以在參數設置中選擇不同的中文語言變體;
  • 對於未登錄用戶,系統根據用戶瀏覽器要求的語言設置;
  • 如果以上設定都沒有,則預設為不轉換。

另外,不同的皮膚(Skin)都帶有了到顯示語言變體頁面的鏈接,如在Vector皮膚中,連結是在頁面討論頁連結旁,使用下拉選單選擇的,而共筆和Timeless皮膚則需要點擊右上角的「變體」。

注意:只有頁面語言為「中文」(而非某一具體變體)時才能夠設置具體的語言變體。

界面語言

界面語言是獨立於文章內容的語言變體的。除了中文的各種變體之外,還可以選擇英文、法文等等語言。界面語言在已登入用戶的偏好設定裡設置。

轉換技術

在技術上,求聞百科的字詞轉換共通過四個層級來實現:

  • MediaWiki內置的轉換表,供所有基於MediaWiki軟件的網站(不局限於求聞百科)進行轉換;
  • MediaWiki:Conversiontable中定義的簡繁和地區詞轉換表,供求聞百科所有頁面的轉換;
  • 公共轉換組,供主題領域相同和相似的條目統一轉換;
  • 各條目內設置的手工轉換,供該條目單獨使用。

其中,公共轉換組和條目內手工轉換人人均可編輯,而修改本地轉換表則需要管理員權限,修改全域轉換表需要向MediaWiki版本庫提交代碼。

轉換表

目前,系統預設的自動轉換是根據數個「轉換表」。轉換表就是一份表格,記載各種不同語言變體之間,字與字或是詞與詞之間的對應關係。

轉換表分為系統默認的轉換表和定製轉換表。系統默認的轉換表存在於MediaWiki程序中,包含最基礎的文字轉換,無法由求聞百科管理員來修改。定製轉換表則是管理員通過Mediawiki:Conversiontable的子頁面來定製的轉換表。普通用戶可以在字詞轉換處理修復請求頁面提出修改轉換表的建議。

定製轉換表可以用來修正系統預設轉換表中的錯誤或不足之處,這些頁面可以象其他頁面一樣編寫,但是描述轉換關係需依以下格式:

 皇后 => 皇后;
 波斯尼亚 => 波士尼亞;
 萨拉热窝 => 塞拉耶佛  // Sarajevo 的翻譯;
 ...

為方便顯示,每條對應前可加星號(*)或井號(#),可用「//」加寫注釋,每條轉換關係要以「;」終止。

轉換表命名規則:Conversiontable/zh-cn頁面用於向zh-cn的轉換、Conversiontable/zh-tw頁面用於向zh-tw的轉換,以此類推。

這些頁面更新後,其效果並不一定會即時顯示出來,因為有些頁面可能放在頁面暫存區裡。要看即時效果可以用編輯預覽功能。

公共轉換組

公共轉換組是指多個頁面共用的一套轉換規則,但不是所有頁面都要應用這一套轉換規則。例如,英文「user」這個詞,在台灣一般稱為「使用者」,而簡體中文稱為「用户」,港、澳兩個特區則使用和簡體一樣的說法「用戶」。在與MediaWiki有關的頁面,繁體中文「偏好設定」對應簡體中文「参数设置」。

公共轉換組是通過模塊在頁面內定義-{H|一條轉換規則}-實現的,其本質實際上屬於隱藏手工轉換。

公共轉換組是在Module:CGroup的子頁面定義的。如需在在頁面使用一個公共轉換組,可以使用模板鏈接:{{NoteTA}}模板。具體請參考該模塊和模板的文檔。

手動指定轉換

你可以在特定的地方指定一部分文字如何轉換,或者不進行轉換。

語言變體回落

語言變體回落(language variant fallback)是指如果查不到某個變體語言的規則,則會嘗試查詢另一個變體語言的規則。例如,顯示澳門繁體(zh-mo)時,如果沒有對應的規則,則會依次嘗試使用繁體(zh-hant)、香港繁體(zh-hk)和台灣繁體(zh-tw)的轉換規則。

MediaWiki規定的回落規則如下:

語言變體 回落語言變體
中文(未轉換) 簡體、繁體、大陸簡體、台灣繁體、香港繁體、新加坡簡體、澳門繁體、大馬簡體
簡體 大陸簡體、新加坡簡體、大馬簡體
繁體 台灣繁體、香港繁體、澳門繁體
中國大陸簡體 簡體、新加坡簡體、大馬簡體
新加坡簡體 簡體、大陸簡體、大馬簡體
馬來西亞簡體 簡體、新加坡簡體、大陸簡體
中國台灣繁體 繁體、香港繁體、澳門繁體
中國香港繁體 繁體、澳門繁體、台灣繁體
中國澳門繁體 繁體、香港繁體、台灣繁體

以新加坡簡體為例,新加坡簡體的回落規則為簡體、大陸簡體、大馬簡體,因此,

  • -{zh-hans:使用简体; zh-cn:使用大陆简体; zh-my: 使用大马简体; zh-hant: 使用繁體;}-在新加坡簡體下顯示為:「使用简体」。
  • -{zh-cn:使用大陆简体; zh-my: 使用大马简体; zh-hant: 使用繁體;}-在新加坡簡體下顯示為:「使用大陆简体」。
  • -{zh-my: 使用大马简体; zh-hant: 使用繁體;}-在新加坡簡體下顯示為:「使用大马简体」。
  • -{zh-hant: 使用繁體;}-在新加坡簡體下顯示為:「在手動語言轉換規則中檢測到錯誤」,因為沒有可以回落的語言變體所以顯示錯誤了。
  • -{H|zh-hans:使用简体; zh-cn:使用大陆简体; zh-my: 使用大马简体; zh-hant: 使用繁體;}-使用繁體顯示為:「使用简体」
  • -{H|zh-cn:使用大陆简体; zh-my: 使用大马简体; zh-hant: 使用繁體;}-使用繁體顯示為:「使用大陆简体」
  • -{H|zh-my: 使用大马简体; zh-hant: 使用繁體;}-使用繁體顯示為:「使用大马简体」
  • -{H|zh-hant: 使用繁體;}-使用繁體顯示為:「使用繁体」(因為這條規則沒有回落,所以忽略了這條規則而是使用了默認轉換規則)

手工轉換

手工轉換是指規定一部分內容的繁簡轉換方式,而忽略其他轉換規則。其語法如下:

不轉換特定內容

可以使用-{不转换的内容}-指定一部分內容不被轉換。這部分內容將會忽略繁簡轉換。

例如:

  • 无论你是设置的什么语言,引号中的这个“-{应用程序}-”总是显示为简体,而“-{應用程式}-”总是显示为繁体。
    • 效果:無論你是設置的什麼語言,引號中的這個「应用程序」總是顯示為簡體,而「應用程式」總是顯示為繁體。

這種語法還可以用來切斷用詞識別。例如,繁體中文下的「應用程式」對應簡體中文「应用程序」,但是「應用程-{}-式」轉換為簡體就是簡單的「应用程式」,而不是「应用程序」。

手工轉換特定內容

可以使用-{转换规则}-手動指定轉換規則,例如:

  • -{zh:文字1;zh-hans:文字2;zh-hant:文字3;zh-cn:文字4;zh-tw:文字5;zh-hk:文字6;zh-sg:文字7;zh-mo:文字8;zh-my:文字9;}- 當前顯示為:文字3。

根據轉換規則的回落規則,你不需要指定完整的轉換規則,通常只需要指定簡繁體即可。例如:

  • -{zh-hans:文字2;zh-hant:文字3}- 當前顯示為:文字3

如果需要避免識別為轉換規則,可以使用-{R|文本}-

手工全文轉換

-{A|转换规则}-用於呈現指定內容的同時,給全文應用這條轉換規則

例如:-{A|zh-cn:博客; zh-hk:網誌; zh-tw:部落格;}-、博客、網誌、部落格

在不同語言下分別顯示為:

不轉換 博客、博客、網誌、部落格
簡體 博客、博客、网志、部落格
繁體 部落格、博客、網誌、部落格
大陸簡體 博客、博客、博客、博客
香港繁體 網誌、網誌、網誌、網誌
澳門繁體 網誌、網誌、網誌、網誌
新加坡簡體 博客、博客、博客、博客
大馬簡體 博客、博客、博客、博客
台灣繁體 部落格、部落格、部落格、部落格

-{H|转换规则}-與上述類似,但是在代碼出現的地方不會產生轉換後的文字,稱為隱藏式全文手工轉換。模板鏈接:{{NoteTA}}就是通過這種方法實現的。

例如:-{H|zh-cn:博客; zh-hk:網誌; zh-tw:部落格;}-博客、網誌、部落格

在不同語言下分別顯示為:

不轉換 博客、網誌、部落格
簡體 博客、网志、部落格
繁體 博客、網誌、部落格
大陸簡體 博客、博客、博客
香港繁體 網誌、網誌、網誌
澳門繁體 網誌、網誌、網誌
新加坡簡體 博客、博客、博客
大馬簡體 博客、博客、博客
台灣繁體 部落格、部落格、部落格

此外,__NOCC____NOCONTENTCONVERT__魔術字可用於禁止全文繁簡轉換。

全文刪除轉換規則

-{-|转换规则}-可用於讓全文不應用某條轉換規則。這種用法也是隱藏式的,代碼出現的地方不會產生文字。

條目標題手工轉換

-{T|标题内容}-或者-{T|转换规则}-可以為文章標題應用轉換規則

此外,__NOTC__或者__NOTITLECONVERT__魔術字可用於禁止標題繁簡轉換。

描述轉換規則

-{D|转换规则}-可產生一段以各語言變體描述一條轉換規則的文字。例如:

  • -{D|文字}-當前顯示為:
    • 文字
  • -{D|zh-hans:文字2;zh-hant:文字3;}-當前顯示為:
    • 简体:文字2;繁體:文字3;
  • -{D|zh:文字1;zh-hans:文字2;zh-hant:文字3;zh-cn:文字4;zh-tw:文字5;zh-hk:文字6;zh-sg:文字7;zh-mo:文字8;zh-my:文字9;}-當前顯示為:
    • 原文:文字1;简体:文字2;繁體:文字3;大陆:文字4;臺灣:文字5;香港:文字6;新加坡:文字7;澳門:文字8;大马:文字9;

自動轉換的能力範圍

MediaWiki的很多頁面都可進行自動轉換,但是仍有很多例外。

頁面分類

目前自動轉換電腦程式的能力範圍不只是百科的條目文章,也包括頁面分類等等頁面。因此除非特別指定,否則條目標題或是子分類標題的分類是根據經過自動轉換之後的結果來分類。然而在此的自動轉換和別處不同,僅僅是簡單的「繁簡轉換」,並沒有進一步轉換。

實例:美國政治人物John Kerry分別有「约翰·克里」、「約翰·克里」與「約翰·凱利」的不同譯名。譯名的關係已加入轉換表,而條目的源碼中並沒有特別指定不轉換,所以閱讀者使用MediaWiki軟件時,並非直接閱讀源碼,而是由系統將源碼自動轉換成合適的形式。但是在頁面分類中的自動轉換和別處不同,僅僅是簡單的「繁簡轉換」,並沒有進一步轉換。

軟體問題

分類通常不可使用重定向功能。

內部連結、URL、重定向與搜索

雖然源碼一般不做轉換。只有程序產生出來的頁面有經過轉換。

用字自動轉換電腦程序的能力範圍不包括求聞百科的URL與搜索功能。百科的系統不會對URL之中的漢字(有時是Punycode的代號形式),或是輸入搜索功能的查詢字串作用字轉換。

重定向頁的內容不會受到自動轉換電腦程序影響。

本百科的條目名稱搜索(「進入」)受到自動轉換電腦程序影響。本百科的條目全文搜索(「搜索」)不會受到自動轉換電腦程序影響。

本百科之外的搜索引擎,如百度、谷歌,可能有自己的自動轉換電腦程序。目前已知搜索時會作簡單的繁簡轉換。當需要建立繁簡重定向頁的時候,建立新條目的方式往往無法奏效。

注意事項

標題不可繁簡混用

文章標題(即頁面名稱)必須全簡體或繁體,否則系統無法正確轉換。例如「中國历史」就是錯誤的(正確寫法為「中国历史」或「中國歷史」)。

避免忽略了地區詞轉換的繁簡轉換

一些詞語存在地區詞的差別,例如繁體「作業系統」和簡體「操作系统」。在公共轉換組的影響下,這些詞彙可以正常轉換,但如果使用混用的寫法,如繁體詞彙的簡體寫法「作业系统」,或者簡體詞彙的繁體寫法「操作系統」,則可能無法正確轉換。因此,除非十分瞭解繁簡差異,否則在編輯極易出現繁簡詞彙差異的條目時,使用者應當使用自己熟悉和習慣的語言變體添加內容,避免因對非習慣的語言變體忽略了詞彙差異而導致加入了無法正常繁簡轉換的內容。

參見