JKF 捷克論壇

搜尋
查看: 289 | 回覆: 0 | 跳轉到指定樓層
chenli1987
大公爵 | 2013-8-7 12:40:36

我們主要是搞自然語言處理,涉及相關語言繁多。過去6個月,我們研究的語言有(深呼吸):英語、葡萄牙語(巴西葡萄牙語及葡萄牙本地語)、西班牙語、意大利語、法語、俄語、德語、土耳其語、阿拉伯語、日語、希臘語、漢語普通話、波斯語、波蘭語、荷蘭語、瑞典語、塞爾維亞語、羅馬尼亞語、韓語、匈牙利語、保加利亞語、印地語、克羅地亞語、捷克語、烏克蘭語、芬蘭語、希伯來語、烏爾都語、加泰羅尼亞語、斯洛伐克語、印尼語、馬來語、越南語、孟加拉語、泰語,以及一點拉脫維亞語、愛沙尼亞語、立陶宛語、庫爾德語、約魯巴語、阿姆哈拉語、祖魯語、豪薩語、哈薩克語、信德語、旁遮普語、他加祿語、宿霧語、丹麥語和納瓦霍語。

自然語言處理(Natural Language Processing,下稱 NLP)就是要找到語言的模式。例如:錄入大量非結構化的文本,自動從中抽離結構。NLP 有一個公開的秘密:它極以英語爲中心。英語無疑是語言學家研究最多的一門語言,于計算機科學項目而言,也是具有最多可用資源的一門語言(就計算機科學而言,數據總是越多越好)。因此,測試一個 NLP 系統的最佳方式之一,就是換用不是英語的語言來測試。一個系統處理多樣化數據的能力越強,那麽其應付未預見數據的能力,也就更令人有信心。

爲此,我們也許可以選擇去根據英語的特性來定義“怪異度”。但是,這樣的定義可是相當令人惱火。所以咱們來試試換一種方法吧。

縱觀全球,糾出“語言異類”
語言結構世界地圖(World Atlas of Language Structures,下稱 WALS)根據一大堆各種語言特征,評估 2676 種不同的語言。這些語言特征包括詞序、聲音種類、否定方式,以及許多其他方面——共計 192 種不同的語言特征。

因此,與其采用一個以英語爲中心的世界觀,WALS 毋甯允許我們換用一個世界性的世界觀。也就是說,我們評估每一門語言,根據的都是其每種語言特征的不尋常度。例如,英語的詞序是“主語—動詞—賓語”, WALS 對 1377 種語言的詞序進行編碼,其中 35.5% 具有“主動賓”詞序。同時,只有 8.7% 的語言以動詞作爲起始,比如威爾士語、夏威夷語和馬揚語(Majang)。因此,從跨語言學角度講,以動詞作爲起始,就是不尋常。另外順帶一提,實際上全世界語言有 41.0% 是“主賓動”順序。(題外話:從事了一些夏威夷語和馬揚語的相關工作后,動詞對我而言,簡直就變成如結婚般重大的承諾:每每開口,我卻總是還沒有做好準備。)

WALS 的數據相當稀疏,所以我們把研究限定于 165 種語言特征,這些特征至少要包含 100 種不同語言的數據。(現階段,就這 165 種語言特征而言,數據不足其中 10 種的語言,我們也剔除掉了。因此共計還剩 1693 種語言。)

現在,有個問題就是,如果我們的篩選到此爲止,那麽數據共線性太高。之所以如此,部分是因 WALS 中列舉的語言特征本質而決定——有整體考量“主語/動詞/賓語”順序的特征項,另又有分別考量“賓語/動詞”和“主語/動詞”的項。理想情況下,我們希望基于不相關的特征評斷怪異度。我們可以集中關注互相之間沒有很強相關度的語言特征(在兩種互相關聯的特征中,我們選擇有更多語言編碼的特征)。最終我們篩得總計 21 種語言特征。

至于某種語言的每項數據值,我們考量其他所有具備該項編碼的語言,計算該項值的相對頻度。因此,如果我們把“主語—賓語—動詞”詞序也算進來的話,那麽英語得到的怪異度值就會是 0.355(實際上,我們根據每項語言特征的整體熵值對所有數據值統一化處理,所以這個值本身並不正好就是 0.355,但你懂這意思就行了)。因此,得到的“怪異度指數”(Weirdness Index),就是一項交叉考量 21 種獨特結構特征的平均值。但是,因爲不同的特征采集數值的數量不同,我們爲了減少統計偏斜,實際上取了調和平均值(又因爲我們希望“數字越大=越怪異”,所以終值是用 1 減去這個平均值)。本篇博文我彙報所涉及的語言,就這 21 項語言特征而言,至少三分之二(即 14 項)具有數據值(即 239 種語言)。

答案揭曉:全世界最怪異的語言是——
與全世界大多數語言最不同的語言,是一種以動詞起句的聲調語言,在墨西哥的瓦哈卡(Oaxaca)有 6000 人使用,名叫“恰卡通戈米斯特克語”(Chalcatongo Mixtec),又名“大聖米格爾米斯特克語”(San Miguel el Grande Mixtec)。第二名在西伯利亞有 2.2 萬人使用:涅涅茨語(Nenets)——英文里“派克大衣”或稱毛皮風雪大衣(parka)一詞就來源于這種語言。第三名是喬克托語(Choctaw),約有 1 萬人使用,大多在美國俄克拉何馬州。

但是,難就難在這兒了——有些實際上最怪異的語言,是你聽說過的:德語、荷蘭語、挪威語、捷克語、西班牙語,以及漢語普通話。而且,實際上英語在“語言怪異度指數”(Language Weirdness Index)表中也位列第 33 名。



世界上最怪異的 25 種語言:北美洲的,恰卡通戈米斯特克語、喬克托語、大梅薩迪埃格諾語(Mesa Grande Diegueno)、庫特奈語(Kutenai)、索克語(Zoque);南美洲的,帕烏瑪利語(Paumari)、特魯邁語(Trumai);澳洲暨大洋洲的,皮詹加加拉語(Pitjantjatjara)、拉伍卡萊維語(Lavukaleve);非洲的,哈勒爾奧羅莫語(Harar Oromo)、伊拉庫語(Iraqw)、剛果語、穆穆耶語(Mumuye)、祖候語(Ju|'hoan)、科伊科伊語(Khoekhoe);亞洲的,涅涅茨語、東亞美尼亞語、阿布哈茲語、拉達克語、普通話;以及歐洲的:德語、荷蘭語、挪威語、捷克語和西班牙語。

順帶一提,皮詹加加拉語(Pitjantjatjara),這名字還能更牛嗎?(另外,你能猜出這個拉丁化拼寫中哪個音節不發音嗎?*)

以兩項特征爲例:問句與代詞
“這很怪。這很怪嗎?”(This is odd. Is this odd?)區分各種語言的特征之一,是“是非問句”的提問方式。絕大多數語言都有特別的疑問語助詞,添加在句中某處(例如日語問句句末的“か”[ka])。在 WALS 中,有 954 種語言具有這項值的編碼,其中 584 種有疑問語助詞。(譯注:又如本段段首的普通話提問方式,添加語助詞“嗎”實現簡單疑問句提問。)但像英語那樣的提問方式,即調換詞序,其比例在所有語言中僅爲 1.4%。也就是說,一共只有 13 種語言采用這樣的方式,而它們大部分都是歐洲語言:德語、捷克語、荷蘭語、瑞典語、挪威語、弗里西亞語、英語、丹麥語和西班牙語。

但還有一種語言,其是非問句的提問方式更加不走尋常路,那就是恰卡通戈米斯特克語:提問時,什麽都不變。我們調查所涉及語言中,唯有這種語言提問時沒有疑問語助詞,沒有詞序調換,沒有語調變換……這種語言就“是否”提問時,以及作簡單陳述時,講話真的是毫無任何區別。我花了好些時間,想象用這種語言做電視遊戲節目會是什麽樣。

語言還需應付的另一個問題,是如何處理簡單主語代詞,比如“我”(I)、“他們/她們/它們”(they)、“它”(it)。這些詞稱爲“代詞主語”(而像“有關部門負責人含糊其辭”這樣的說法則是使用了名詞主語)。最通常的做法,是將代詞信息附加到動詞上——所調查的 711 中語言中有 437 中語言采用這樣的做法,如西班牙語、意大利語和葡萄牙語。但是,荷蘭語、德語和挪威語,與英語一樣,甯可使用特別的主語代詞,而這些代詞通常——或必須——在句中出現。不過,在 WALS 有編碼的 711 種語言里,也只有 82 種語言采用這樣的處理方法。庫特奈語(加拿大不列顛哥倫比亞省有 100 人使用)和穆穆耶語(尼日利亞有 40 萬使用者)的處理方法更不尋常:它們有類似主語代詞的東西,但其在句法中的位置,則與完整名詞性短語的位置不同。而比這還更不尋常的,又是恰卡通戈米斯特克語:這種語言混合多種不同策略,所以既有附著在動詞上的主語標記,又有代詞,而且這些代詞在句中出現的位置,還與完整名詞短語不同。

世界上最“不怪異”的語言
如果我現在請你考慮一下以下這幾種語言,你覺得它們有多怪呢?立陶宛語、印尼語、土耳其語、巴斯克語,以及粵語。嚇一跳吧!它們的怪異指數排名相當低呢。對于語言學家和語言學習者而言,這幾種語言可能並不顯得典型;但就我們研究的 21 種語言特征而言,它們相當隨大溜。請注意,在怪異度各級分布中,我們有一些孤立語言(比如巴斯克語)。巴斯克語很“典型”;但是另一種孤立語言,庫特奈語,則相當怪異。更令人驚訝的是,漢語普通話名列 25 大最怪異語言,但粵語卻棲身倒數十大。這與二者發音系統不同有關:與粵語不同的是,普通話有小舌延續音(uvular continuants),而且在軟颚鼻音方面有一些局限(普通話同英語類似,可以發出英語“song”詞尾的那個音,比如漢語“頌”[song];但無法將這個尾音置于單詞的詞首發音——世界性地來看,這個特定限制實屬罕見。)

而在怪異指數列表最末尾的幾種語言里,有兩種你聽過,有 3 種你可能沒聽過:匈牙利語,通常享有“語言學異類”的美譽,但在我們考量的這些維度里,卻是徹頭徹尾的典型語言。(我去年夏天在布達佩斯住過,我發誓匈牙利語絕對有其怪異之處,只是隱藏在其他地方了而已。)查莫羅語(關島有 9.5 萬使用者)、阿伊努語(僅在日本有少量使用者的瀕危語言),以及布雷佩查語(Purepecha,5.5 萬使用者,多在墨西哥),這三種語言都很正常。但是,所有語言中最最正常、超級典型、最不詭異的一種語言,怪異指數僅 0.087 的語言,是印地語——只有一項怪異特征。

這一點,一部分說明,有些你想當然以爲正常的語言(如英語、西班牙語或德語),其實一貫與世界上其他語言格格不入。這令我想起心理學的一個基本問題:如果我們調查研究主要基于大學生——即如約瑟夫•亨利希(Joseph Henrich)及其同事所認爲的,西方的、受過教育的、工業化的、富裕的、民主的大學生——那麽這樣的研究,其概括程度到底能有多高?換句話說,有時輸入的信息本身就“不正常”,或曰怪異,那你就要問問自己,這是否會導致研究的變化。

你講英語,你很怪
盡管這里采用的方法沒有以英語界定,但仍然夾帶了一些文化特異性的私貨。即是說,開發這個系統以及注釋這些語言特征的語言學家,大部分都是歐洲語言使用者。如果換爲巴布亞新幾內亞、埃塞俄比亞或亞馬遜的某個人來做研究,最終確定的語言特征又是哪些呢?而且,當然,WALS 並不具備全球約 4000 種語言的所有數據;其所擁有數據資料的語言,也並不真正足夠隨機。

話雖如此,英語排名仍然很高,是挺不尋常的一種語言(排名 33 位,指數值 0.756)。如果你能帶著一個英語思維的大腦,去讀這篇文章英語原文,那你可真是怪怪哒。(譯注:你操漢語,能讀這篇譯文,那你的腦子更怪。)

附錄:十大與倒數十大
下列爲怪異語言列表十大及倒數十大,共 20 種語言。

排位        語言名稱(中)        語言名稱(英)        怪異度指數
1        米斯特克語(恰卡通戈)        Mixtec (Chalcatongo)        0.972
2        涅涅茨語        Nenets        0.935
3        喬克托語        Choctaw        0.924
4        迪埃格諾語(大梅薩)        Diegueno (Mesa Grande)        0.920
5        奧羅莫語(哈勒爾)        Oromo (Harar)        0.919
6        庫特奈語        Kutenai        0.908
7        伊拉庫語        Iraqw        0.900
8        剛果語        Kongo        0.883
9        亞美尼亞語(東部)        Armenian (Eastern)        0.861
10        德語        German        0.858
......                           
230        巴斯克語        Basque        0.189
231        波羅羅語(譯注:巴西)        Bororo        0.153
232        克丘亞語(因巴布拉)        Quechua (Imbabura)        0.151
233        烏桑語(譯注:巴布亞新幾內亞)        Usan        0.151
234        粵語        Cantonese        0.143
235        匈牙利語        Hungarian        0.132
236        查莫羅語        Chamorro        0.128
237        阿伊努語        Ainu        0.128
238        布雷佩查語        Purepecha        0.100
239        印地語        Hindi        0.087


內容注釋:
譯注:原文表述略有不當;皮詹加加拉語(Pitjantjatjara)在當地原住民語言中或可簡稱爲“皮詹加拉語”(Pitjantjara [ˈb̥ɪɟanɟaɾa]) ,所以這個完整的拉丁化拼寫並非“有一個音節不發音”,而只是有一個音節“可以”省略且不發音。
分享分享 收藏收藏
FB分享
回覆 使用道具
您需要登入後才可以回覆 登入 | 加入會員

建議立即更新瀏覽器 Chrome 95, Safari 15, Firefox 93, Edge 94。為維護帳號安全,電腦作業系統建議規格使用Windows7(含)以上。
回頂部 下一篇文章 放大 正常倒序 快速回覆 回到列表