Help:字词转换处理

本页使用了标题或全文手工转换,现处于不转换模式
帮助页面

SolidBlock留言 | 贡献于2022年6月17日 (五) 09:45提交的版本

字词转换处理是MediaWiki软件的一項自動轉換操作,目的是为不同地区的用户显示不同变体的文本。

求闻百科的讀者和編者來自世界各地。他們所需求或貢獻的中文在性質上有許許多多的差異,像是简体字繁体字的差異、各地区詞彙的差異、方言差異造成的书面語言的差異等等。MediaWiki將這些中文性質集合在一起,稱為「语言变体」。求闻百科並不規範讀者或編者要使用何種语言变体阅读或编辑,而是嘗試以電腦程式的自動轉換來適應這些差異,讓編者可以以自己的阅读或编写習慣提供資料,也讓讀者可以選擇所要的資料的用字遣詞。

语言变体的自動轉換與MediaWiki系統本身的原理有關。大部分編者輸入的文章內容,包括文字和源代码等等,都会在系统内保留完整不变的源码,不作自動轉換。讀者使用MediaWiki软件時,並非直接閱讀源碼,而是由系統將源碼即時自動轉換成合適的形式。语言变体轉換就是眾多自動轉換程序中的一道。自動轉換電腦程式的能力範圍包括所有语言设为“中文”(而非中文的某一具体变体)的页面。。

大多數時候,MediaWiki根據轉換表進行轉換。有的時候,則是根據編者在源碼中指定的方式作自動轉換,即「手動轉換」。轉換表就是一份列出各種不同语言变体之間,字與字或是詞與詞之間的對應關係的表格。目前只有拥有编辑界面权限的用户组(如管理员、界面管理员)能編輯轉換表。「手動轉換」仍然是在讀者使用時即時作的自動轉換,但是這時程序是根據編者在源碼中指定的方式為優先。編者可以在編輯存檔後切換至其他的语言变体查看情況。

选择语言变体

目前,MediaWiki系统支持中文的zh(中文,不转换)、zh-hant(繁體,通用)、zh-tw(中国台湾)、zh-hk(中国香港)、zh-mo(中国澳门),以及zh-hans(简体,通用)、zh-cn(中國大陸)、zh-sg(新加坡共和国)、zh-my(馬來西亞)九種语言变体。其中,zh(中文,不转换)、zh-hant(繁體)、zh-hans(簡體)三種模式主要用於維護,編輯需註冊後在参数设置/小工具/显示类小工具中去除隐藏“不转换”、“简体”和“繁体”三个标签的复选框才能顯示。编者应该根据其所在地区选择最具体的语言变体,例如中国大陆的用户应该选择zh-cn而非zh-hans。

内容的语言变体

内容语言变体可以通过如下方式设置:

  • 所有用户(无论是否已登录)都可以把URLhttps://www.qiuwenbaike.cn/wiki/条目名称)中的 wiki 改成 zh-xx。对于https://www.qiuwenbaike.cn/index.php 开头的页面,可以在URL最后加上 &variant=zh-xx (URL含有 ? 时用)或?variant=zh-xx (URL不含有 ? 时用)。其中 xx 可为 hanshantcntwhkmosgmy
  • 已登入的用戶可以在参数设置中选择不同的中文語言变体;
  • 对于未登录用户,系統根据用户浏览器要求的语言设置。参见此处
  • 如果以上設定都没有,则預設为不轉換。

另外,不同的面板(Skin)都增加了到各個语言变体的链接,如現在的Vector面板,連結是在頁面討論頁連結旁,使用下拉選單選擇的。

界面语言

界面语言是独立于文章内容的语言变体的。除了中文的各種变体之外,还可以选择英文、法文等等语言。界面语言在已登入用戶的偏好設定裡设置。

转换技术

在技术上,求闻百科的字词转换共通过四个层级来实现:

  • MediaWiki内置的转换表,供所有MediaWiki网站(不局限于求闻百科)进行转换;
  • MediaWiki:Conversiontable中定义的简繁和地区词转换表,供求闻百科的转换;
  • 公共转换组,供主题领域相同和相似的条目统一转换;
  • 各条目内设置的手工转换,供该条目单独使用。

其中,公共转换组和条目内手工转换人人均可编辑,而修改本地转换表则需要管理员权限,修改全域转换表需要向MediaWiki版本库提交代码。

转换表

目前,系统預設的自动转换是根據數個「轉換表」。轉換表就是一份表格,記載各種不同语言变体之間,字與字或是詞與詞之間的對應關係。

转换表分为系统默认的转换表和定制转换表。系统默认的转换表存在于MediaWiki程序中,包含最基础的文字转换,无法由求闻百科管理员来修改。定制转换表则是管理员通过Mediawiki:Conversiontable的子页面来定制的转换表。普通用户可以在字词转换处理修复请求页面提出修改转换表的建议。

定制转换表可以用来修正系统預設转换表中的错误或不足之处,这些页面可以象其他页面一样编写,但是描述转换关系需依以下格式:

 皇后 => 皇后;
 波斯尼亚 => 波士尼亞;
 萨拉热窝 => 塞拉耶佛  // Sarajevo 的翻译;
 ...

为方便显示,每条对应前可加星号(*)或井号(#),可用“//”加写注释,每条转换关系要以“;”终止。

转换表命名规则:Conversiontable/zh-cn页面用于向zh-cn的转换、Conversiontable/zh-tw页面用于向zh-tw的转换,以此类推。

这些页面更新后,其效果并不一定会即时显示出来,因为有些页面可能放在頁面缓存裡。要看即时效果可以用编辑预览功能。

公共转换组

公共转换组是指多个页面共用的一套转换规则,但不是所有页面都要应用这一套转换规则。例如,“user”这个词,在台湾一般称为“使用者”,而简体中文称为“用户”,港、澳两个特区则使用和简体一样的说法“用戶”。在与MediaWiki有关的页面,繁体中文“偏好設定”对应简体中文“参数设置”。

公共转换组是通过模块在页面内定义-{H|一条转换规则}-实现的,其本质实际上属于隐藏手工转换。

公共转换组是在Module:CGroup的子页面定义的。如需在在页面使用一个公共转换组,可以使用模板链接:{{NoteTA}}模板。具体请参考该模块和模板的文档。

手工转换

你可以在特定的地方指定一部分文字如何转换,或者不进行转换。

语言变体回落

语言变体回落(language variant fallback)是指如果查不到某个变体语言的规则,则会尝试查询另一个变体语言的规则。例如,显示澳门繁体(zh-mo)时,如果没有对应的规则,则会依次尝试使用繁体(zh-hant)、香港繁体(zh-hk)和台湾繁体(zh-tw)的转换规则。

MediaWiki规定的回落规则如下:

语言变体 回落语言变体
中文(未转换) 简体、繁体、大陆简体、台湾繁体、香港繁体、新加坡简体、澳门繁体、大马简体
简体 大陆简体、新加坡简体、大马简体
繁体 台湾繁体、香港繁体、澳门繁体
中国大陆简体 简体、新加坡简体、大马简体
新加坡简体 简体、大陆简体、大马简体
马来西亚简体 简体、新加坡简体、大陆简体
中国台湾繁体 繁体、香港繁体、澳门繁体
中国香港繁体 繁体、澳门繁体、台湾繁体
中国澳门繁体 繁体、香港繁体、台湾繁体

以新加坡简体为例,新加坡简体的回落规则为简体、大陆简体、大马简体,因此,

  • -{zh-hans:使用简体; zh-cn:使用大陆简体; zh-my: 使用大马简体; zh-hant: 使用繁體;}-在新加坡简体下显示为:“使用简体”。
  • -{zh-cn:使用大陆简体; zh-my: 使用大马简体; zh-hant: 使用繁體;}-在新加坡简体下显示为:“使用大陆简体”。
  • -{zh-my: 使用大马简体; zh-hant: 使用繁體;}-在新加坡简体下显示为:“使用大马简体”。
  • -{zh-hant: 使用繁體;}-在新加坡简体下显示为:“在手动语言转换规则中检测到错误”,因为没有可以回落的语言变体所以显示错误了。
  • -{H|zh-hans:使用简体; zh-cn:使用大陆简体; zh-my: 使用大马简体; zh-hant: 使用繁體;}-使用繁體显示为:“使用简体”
  • -{H|zh-cn:使用大陆简体; zh-my: 使用大马简体; zh-hant: 使用繁體;}-使用繁體显示为:“使用大陆简体”
  • -{H|zh-my: 使用大马简体; zh-hant: 使用繁體;}-使用繁體显示为:“使用大马简体”
  • -{H|zh-hant: 使用繁體;}-使用繁體显示为:“使用繁体”(因为这条规则没有回落,所以忽略了这条规则而是使用了默认转换规则)

手工转换

手工转换是指规定一部分内容的繁简转换方式,而忽略其他转换规则。其语法如下:

不转换特定内容

可以使用-{不转换的内容}-指定一部分内容不被转换。这部分内容将会忽略繁简转换。

例如:

  • 无论你是设置的什么语言,引号中的这个“-{矩阵}-”总是显示为简体,而“-{亡靈之舞}-”总是显示为繁体。
    • 效果:无论你是设置的什么语言,引号中的这个“矩阵”总是显示为简体,而“亡靈之舞”总是显示为繁体。

这种语法还可以用来切断用词识别。例如,繁体中文下的“矩陣”对应简体中文“矩阵浪潮”,但是“矩-{}-陣”转换为简体就是简单的“矩阵”,而不是“矩阵浪潮”。

手工转换特定内容

可以使用-{转换规则}-手动指定转换规则,例如:

  • -{zh:文字1;zh-hans:文字2;zh-hant:文字3;zh-cn:文字4;zh-tw:文字5;zh-hk:文字6;zh-sg:文字7;zh-mo:文字8;zh-my:文字9;}- 当前显示为:文字1。

根据转换规则的回落规则,你不需要指定完整的转换规则,通常只需要指定简繁体即可。例如:

  • -{zh-hans:文字2;zh-hant:文字3}- 当前显示为:文字2

如果需要避免识别为转换规则,可以使用-{R|文本}-

手工全文转换

-{A|转换规则}-用于呈现指定内容的同时,给全文应用这条转换规则

例如: -{A|zh-cn:博客; zh-hk:網誌; zh-tw:部落格;}-、博客、網誌、部落格

在不同语言下分别显示为:

不转换 博客、博客、網誌、部落格
简体 博客、博客、网志、部落格
繁体 部落格、博客、網誌、部落格
大陆简体 博客、博客、博客、博客
香港繁体 網誌、網誌、網誌、網誌
澳门繁体 網誌、網誌、網誌、網誌
新加坡简体 博客、博客、博客、博客
大马简体 博客、博客、博客、博客
台湾繁体 部落格、部落格、部落格、部落格

-{H|转换规则}-与上述类似,但是在代码出现的地方不会产生转换后的文字,称为隐藏式全文手工转换。模板链接:{{NoteTA}}就是通过这种方法实现的。

例如: -{H|zh-cn:博客; zh-hk:網誌; zh-tw:部落格;}-博客、網誌、部落格

在不同语言下分别显示为:

不转换 博客、網誌、部落格
简体 博客、网志、部落格
繁体 博客、網誌、部落格
大陆简体 博客、博客、博客
香港繁体 網誌、網誌、網誌
澳门繁体 網誌、網誌、網誌
新加坡简体 博客、博客、博客
大马简体 博客、博客、博客
台湾繁体 部落格、部落格、部落格

此外,__NOCC____NOCONTENTCONVERT__魔术字可用于禁止全文繁简转换。

全文删除转换规则

-{-|转换规则}-可用于让全文不应用某条转换规则。这种用法也是隐藏式的,代码出现的地方不会产生文字。

条目标题手工转换

-{T|标题内容}-或者-{T|转换规则}-可以为文章标题应用转换规则

此外,__NOTC__或者__NOTITLECONVERT__魔术字可用于禁止标题繁简转换。

描述转换规则

-{D|转换规则}-可产生一段以各语言变体描述一条转换规则的文字。例如:

  • -{D|文字}-当前显示为:
    • 文字
  • -{D|zh-hans:文字2;zh-hant:文字3;}-当前显示为:
    • 简体:文字2;繁體:文字3;
  • -{D|zh:文字1;zh-hans:文字2;zh-hant:文字3;zh-cn:文字4;zh-tw:文字5;zh-hk:文字6;zh-sg:文字7;zh-mo:文字8;zh-my:文字9;}-当前显示为:
    • 原文:文字1;简体:文字2;繁體:文字3;大陆:文字4;臺灣:文字5;香港:文字6;新加坡:文字7;澳門:文字8;大马:文字9;

自動轉換的能力範圍

MediaWiki的很多頁面都可進行自動轉換,但是仍有很多例外,例如Special:Recentchanges這樣的特殊頁面,就有一部分内容是不轉換的。

頁面分類

目前自動轉換電腦程式的能力範圍不只是百科的條目文章,也包括頁面分類等等頁面。因此除非特別指定,否則條目標題或是子分類標題的分類是根據經過自動轉換之後的結果來分類。然而在此的自動轉換和別處不同,僅僅是簡單的「繁簡轉換」,並沒有進一步轉換。

實例:美國政治人物John Kerry分別有「约翰·克里」、「約翰·克里」與「約翰·凱利」的不同譯名。譯名的關係已加入轉換表,而條目的源碼中並沒有特別指定不轉換,所以閱讀者使用維基系統時,並非直接閱讀源碼,而是由系統將源碼自動轉換成合適的形式。但是在頁面分類中的自動轉換和別處不同,僅僅是簡單的「繁簡轉換」,並沒有進一步轉換。

軟體問題

分类通常不可使用重定向功能。

內部連結、URL、重定向與搜索

雖然源碼一般不做轉換。只有程序產生出來的頁面有經過轉換。

用字自動轉換電腦程序的能力範圍不包括求闻百科的URL與搜索功能。百科的系統不會對URL之中的漢字(有時是Punycode的代號形式),或是輸入搜索功能的查詢字串作用字轉換。

重定向頁的內容不會受到自動轉換電腦程序影響。

本百科的條目名稱搜索(「進入」)受到自動轉換電腦程序影響。 本百科的條目全文搜索(「搜索」)不會受到自動轉換電腦程序影響。

本百科之外的搜索引擎,如百度、谷歌,可能有自己的自動轉換電腦程序。目前已知搜索時會作簡單的繁簡轉換。當需要建立繁簡重定向頁的時候,建立新條目的方式往往無法奏效。

編輯一般文章時的注意事項

  • 避免繁簡混雜、或以繁/簡體打出簡/繁體用詞,文章內容及標題(包括分類標題)必須全簡體或繁體,例如对「中國历史」(正确写法为“中国历史”或「中國歷史」)和「操作系統」(正确写法为「作業系統」或“操作系统”),系統可能无法作出正確的轉換。如果為單純繁簡轉換(如前者),尚可能成功;但若為使用繁體文字打出簡體詞彙(如後者),則轉換通常註定失敗。因此,除非十分瞭解繁簡差異,否則在編輯極易出現繁簡差異的條目(例如電腦相關的條目)時,請簡體中文使用者不要使用繁體字錄入、繁體中文使用者不要使用簡體字錄入。

参见

Template:帮助导航