目前印度有超過 6 億互聯網用戶,但其中只有一小部分人能夠流利說英語。然而,目前印度大多數在線服務和網頁服務都只提供英語。這種語言障礙造成了全球第二大互聯網市場的數字鴻溝,從而讓數億用戶只能使用少數網站和服務。
因此,越來越多的科技企業嘗試為更多的印度人提供互聯網服務。本周四谷歌宣布了一系列措施,在旗下產品中更多地使用印度當地語言之外,還提供了全新的語言翻譯方法。
此外,谷歌表示計劃投資谷歌在印度的研究中心,推動機器學習和人工智能領域的發展,并將人工智能模型在整個生態系統中向所有人開放。谷歌承諾將會在未來幾年在印度投資 100 億美元,并和當地的創業公司進行合作,用當地語言為印度用戶提供服務,并大幅改善谷歌產品和服務體驗。
除了目前可用的英語和印度語之外,谷歌還將會看到泰米爾語、泰盧固語、孟加拉語和馬拉地語的查詢搜索結果。這一新增功能是在谷歌在印度的搜索頁面中增加印地語標簽四年后推出的。該公司表示,在推出這個標簽頁后,印地語的搜索查詢量增長了10多倍。例如,如果有人更喜歡看到他們的泰米爾語查詢,現在他們將能夠在英語旁邊設置泰米爾語標簽,并在兩者之間快速切換。
獲得本地語言的搜索結果是很有幫助的,但人們往往也想用這些語言進行查詢。谷歌表示,它發現用非英語語言輸入是目前用戶面臨的另一個挑戰。為了解決這一挑戰,搜索將開始在適當的情況下以支持的印度語言顯示相關內容,即使當地語言查詢是用英語輸入的。該公司計劃在下個月推出該功能,支持五種印度語言:印地語、孟加拉語、馬拉地語、泰米爾語和泰盧固語。
谷歌還讓用戶更容易快速改變他們在應用程序中看到結果的首選語言,而無需改變設備的語言設置。該功能目前在Discover和Google Assistant中提供,現在將在 Google Maps 中推出。同樣,Google Lens的 “家庭作業 ”功能,允許用戶對數學或科學問題進行拍照,然后提供其答案,現在支持印地語。
谷歌高管還詳細介紹了一個新的語言人工智能模型,他們稱之為印度語言的多語言表示(MuRIL),在處理翻譯、拼寫變化和混合語言以及其他語言的細微差別方面提供更高的效率和準確性。Google Research India的研究科學家Partha Talukdar周四在一次虛擬活動中表示,MuRIL在使用羅馬字母書寫印地語時提供了對譯文的支持,這是以前的同類模型所缺少的東西。
該公司表示,它用維基百科上的文章和來自一個名為Common Crawl的數據集的文本來訓練新模型。它還對來自維基百科等來源的翻譯文本進行了訓練(通過谷歌現有的神經機器翻譯模型進行反饋)。結果是,MuRIL處理印度語言的能力比之前更通用的語言模型更好,可以應對已經被翻譯的字母和單詞--也就是說,谷歌使用的是不同字母或文字的最接近的對應字母。
責編AJX
-
谷歌
+關注
關注
27文章
6168瀏覽量
105392 -
互聯網
+關注
關注
54文章
11155瀏覽量
103315 -
語言
+關注
關注
1文章
97瀏覽量
24244
發布評論請先 登錄
相關推薦
評論