麻省理工學院計算機科學與人工智能實驗室(Computer Science and Artificial Intelligence Laboratory,CSAIL)的研究人員最近開發出了一種新的計算機算法,可以幫助語言學家自動破譯歷史上消失已久失的古語言。
官方指出,該系統能夠自動破譯已消失的語言,且無需對這一語言與其他語言的關系有深入的了解。他們還表明,該系統自身就可以確定語言之間的關系,并可以用它來證實最近的一項表明 Iberian 語言實際上與 Basque 語言無關的學術研究。
CSAIL 方面稱,最近的研究表明,大多數曾經存在過的語言已經不再被使用。其中有數十種已滅絕語言也已被認為是“未破譯”的語言。這就意味著,大眾對它們的語法(grammar)、詞匯(vocabulary)或句法(syntax)都了解不足,也無法理解其文本的意思。
而研究這些“未破譯”的語言,除了是出于學術上的好奇心。還在于,不理解語言我們就會錯過與講這些語言的人有關的一整套知識體系。然而不幸的是,大多數滅絕語言的相關記錄都非常的少,導致科學家無法使用谷歌翻譯之類的機器翻譯工具或 AI 算法來對其進行解密。
因此,此次 CSAIL 團隊推出這一新算法的最終目的就是,旨在只用幾千個單詞,就可以破譯語言學家幾十年來難以理解的失傳語言。
本次研究由 MIT 教授 Regina Barzilay 牽頭,依賴于基于歷史語言學(historical linguistics)見解的幾項原則。例如,語言通常僅以某些可預測的方式發展。具體表現為:一種給定的語言很少會直接添加或刪除整個音節,但是很可能會發生某些近似發音的替換。像母語中帶有“p”發音的單詞就可能會在其后代演變中變為“b”,但是由于明顯的發音差異,變為“k”的可能性則較小。
通過整合這些原則和其他語言學約束,Barzilay 和 MIT 博士生 Jiaming Luo 開發了一種解密算法,該算法可以處理可能的轉換的巨大空間以及輸入中引導信號的稀缺性。該算法學習將語言聲音嵌入多維空間,在該多維空間中,相應矢量之間的距離反映了不同發音的差異。這種設計使他們能夠捕獲語言變化的相關模式,并將其表達為計算約束(computational constraints)。生成的模型可以將古代語言中的單詞進行細分,并將其映射到相關語言中的對應單詞。
該項目建立在 Barzilay 和 Luo 去年寫的一篇論文的基礎上, 這篇論文解密了已滅絕的 Ugaritic 和 Linear B 語言,后者以前需要數十年的時間才能被人類解碼。但是,兩個項目之間的主要區別在于,該團隊此前就已經知道這些語言分別與希伯來語和希臘語的早期形式有關。
新算法可以推斷語言之間的關系,這是語言解密中的最大挑戰之一。該算法可以評估兩種語言之間的相似度,當對已知語言進行測試時,它甚至可以準確地識別出該語言屬于哪個語系(language families)。不僅如此,算法生成的模型可以將古語言中的單詞進行細分,并將其一一映射到“相關”語言中的對應單詞上去。
在未來的工作中,該團隊希望擴展到將文本與已知語言的相關單詞相關聯的范圍之外,這種方法被稱為“基于同源的破譯方法”。其表示,“例如,我們可以識別文本中涉及到的所有人或地點的信息,然后可以根據已知的歷史證據對其進行進一步的調查。這些實體識別(entity recognition)方法如今已廣泛用于各種文本處理應用程序中,并且具有很高的準確性。但是關鍵的研究問題在于,在沒有任何古代語言訓練數據的情況下,這項任務是否可行? ”
責編AJX
-
算法
+關注
關注
23文章
4625瀏覽量
93138 -
MIT
+關注
關注
3文章
253瀏覽量
23433 -
機器翻譯
+關注
關注
0文章
139瀏覽量
14919
發布評論請先 登錄
相關推薦
評論