摘要:?本文將與大家分享機器翻譯相關背景知識,再深入介紹機器翻譯在阿里生態中的具體應用實踐,介紹基于機器翻譯技術搭建的一套完善的電商多語言解決方案,最后將會從技術角度介紹阿里機器翻譯在解決實際業務問題中的技術創新和亮點。
摘要:阿里機器翻譯團隊在阿里巴巴業務場景主要應用在電商、溝通等垂直領域,服務的業務方包括AliExpress、Lazada、ICBU、天貓國際、淘寶海外、釘釘、阿里云等重要國際化業務,幫助這些業務解決在國際化發展中各國家本地化過程最基本的語言問題。本文將與大家分享機器翻譯相關背景知識,再深入介紹機器翻譯在阿里生態中的具體應用實踐,介紹基于機器翻譯技術搭建的一套完善的電商多語言解決方案,最后將會從技術角度介紹阿里機器翻譯在解決實際業務問題中的技術創新和亮點。
發布會視頻回顧,戳這里!https://yq.aliyun.com/webinar/play/469
發布會PPT鏈接,戳這里!https://yq.aliyun.com/download/2880
演講嘉賓介紹
施楊斌,阿里巴巴機器智能技術實驗室翻譯平臺高級技術專家,目前擔任阿里巴巴機器智能技術實驗室翻譯平臺語料和解決方案方向負責人。語料方向主要負責阿里機器翻譯語料數據獲取、清洗、挖掘以及系統化建設工作。解決方案是將阿里翻譯技術能力進行封裝、整合、服務化后以完整解決方案方式對外輸出,整體解決跨境電商國際化過程中的語言問題。
以下內容根據演講視頻以及PPT整理而成。
本文與大家分享的主要內容將分為以下四個方面:
1.機器翻譯背景介紹
2.阿里機器翻譯在跨境電商的應用
3.阿里機器翻譯技術亮點
4.阿里云機器翻譯產品介紹
一、機器翻譯背景介紹
首先為大家介紹一些機器翻譯相關的背景,這里主要分為兩個部分,即機器翻譯動態和阿里機器翻譯。
提到翻譯,你會想到什么?
提到翻譯,可能大家第一時間就會想到的是同聲傳譯,其次大家可能會想到在影視作品中字幕的翻譯。今年年初比較火爆的一部電影《無問西東》的英文名還是比較有意思的,叫做“forever young”,通過電影的英文名也向大家傳遞了這部電影想要傳遞的另外的一層含義。當然了,這樣的英文電影名的翻譯必然是人工翻譯的,顯然不會是機器翻譯的結果。大家在日常工作學習中還會遇到的場景就是機器翻譯了。
?
機器翻譯的發展歷程
在正式介紹機器翻譯的背景之前,先和大家介紹一下機器翻譯的發展歷程。下圖是Chris Manning手繪的機器翻譯發展歷程圖,從這張圖中大家可以看到,其實早在1954年就出現了機器翻譯相關的介紹,到了1982年就出現了第一個基于規則的機器翻譯系統,到了1993年左右就出現了基于詞維度的統計機器翻譯系統,之后還出現了基于短語維度的機器翻譯,并且在此之后還對于基于短語維度的機器翻譯進行了優化。直到最近的2014年左右,隨著人工智能的發展才產生了基于神經網絡的機器翻譯,這對于機器翻譯的質量有了極大的提升。之所以介紹這樣的一條機器翻譯發展之路,其實是想為大家說明:機器翻譯也是在不斷地進步,而機器翻譯的質量也發生了很大的變化,并且在很多場景下,機器翻譯都發揮出了極大的促進作用。
哪些場景需要機器翻譯?
首先是語言服務的公司,比如翻譯服務供應商以及本地化公司,他們會借助機器翻譯來提升人工翻譯的效率;此外就是互聯網內容提供方,因為在互聯網公司需要開設國際新聞資訊以及外語新聞資訊的站點,比如Youtube、Youku等視頻內容提供方可能需要借助機器翻譯將視頻內容翻譯成多語言的版本;第三部分就是社交平臺,在社交平臺之上的用戶其實往往是來自于各個不同國家的,需要通過機器翻譯打破用戶之間交流的屏障;第四部分就是政府以及一些國企,他們的網站上需要提供一些內容、新聞等,并且需要實現服務的多語言化;此外,還有一些像華為、惠普這樣的跨國公司,他們的產品需要銷往世界各地,那么他們的產品說明書以及一些對于用戶的支持服務也需要多語言的版本;最后一類就是工具類服務提供商,就比如大家比較熟悉的飛豬需要提供旅游方面多種語言的支持,而滬江則會提供個人語言學習上的支持。
機器翻譯的市場規模
如下圖所示的是機器翻譯市場的大致情況。大家可以看到傳統的機器翻譯公司有谷歌、百度、微軟,與此同時也可以看到一些最近興起的機器翻譯公司,比如亞馬遜、中譯語通以及小牛翻譯和阿里語言服務等。整個機器翻譯的市場規模在2017年就已經達到了450億,并且每年以10%的年增長量率在增長,如今每天的在線翻譯量已經達到了1000億這樣的數量級。
阿里巴巴為什么需要機器翻譯?
上面介紹了機器翻譯的一些相關背景,接下來回到這個話題:阿里巴巴為什么需要機器翻譯?其實這個問題的答案很簡單,就是阿里巴巴最近幾年都在大力發展國際化的戰略,因此需要將阿里巴巴的所有業務向國際化推動,開放給全球更多的用戶,阿里巴巴要實現5個全球化。而在這個過程中,語言問題是阿里巴巴必須去解決的,所以阿里巴巴在機器翻譯方面做出了很大的投入。
阿里巴巴機器翻譯的能力
通過下圖大家可以簡單地了解阿里巴巴機器翻譯的整體能力。阿里巴巴在2013年左右開始投入進行機器翻譯方面的研發。到目前為止,機器翻譯已經服務于阿里巴巴內部40多個團隊和170多個應用了。阿里機器翻譯目前能夠支持21個語種以及43個語言方向的翻譯,并有具有19個語言方向的自動語種識別能力,在阿里巴巴內部日均調用量達到了7.5億次,并且系統穩定性也已經達到了99.99%的水平。在今年剛結束的機器翻譯領域最為權威的WMT國際比賽上,阿里機器翻譯在5個語項上取得了全球第一。以上這些能力都體現了阿里機器翻譯的長期積累。此外,在翻譯形態上了,除了能夠支持傳統的文字翻譯之外,還能夠支持語音、圖片以及視頻翻譯的能力,并且這些能力也將會在后續再阿里云上輸出出去。
二、阿里機器翻譯在跨境電商的應用
前面的第一部分為大家系統地介紹了機器翻譯的發展歷程、背景以及阿里巴巴在機器翻譯方面的一些能力。在第二部分將為大家著重講解一下機器翻譯在阿里跨境電商場景下的具體應用。在這部分中會為大家完整地介紹跨境電商的全鏈路,并且會在全鏈路中選取幾個具體的應用案例進行展示。
跨境電商全鏈路
下圖非常清晰地描述了跨境電商全鏈路的情況。首先,對于想要做跨境電商業務的網站而言,最開始要做的就是多語言建站,將站點建設成多語言的版本。這就會涉及到網站以及APP的多語言化以及網站規則的多語言化以及安全信息風控的多語言化。當將網站建設成為多語言站點之后,接下來就需要對網站做一些引流拉新,這里包括對于廣告營銷以及大促等支持多語言版本,而對于一些引流的商品也需要做精細化的翻譯。當將流量引入到多語言站點之后,還需要提升用戶找到自己所需商品的概率,這里面就涉及到了到站搜索,這里需要多語言的搜索方案,在多語言搜索方案的基礎之上,還需要對于類目以及商品的屬性進行優化,方便用戶能夠更加快速地找到自己想要的商品。而當用戶觸達到自己所想要的商品之后,需要讓用戶能夠看得懂商品的信息,這樣能夠提高用戶購買的轉化率,這里就會涉及到標題的定制改寫,將標題改成用戶能夠清晰可見并且簡單明了的形式,并且將標題翻譯成多語言的版本,同樣的也要將商品的詳細描述翻譯成多語言的版本,而且對于商品的評論,也需要翻譯成多語言版本。此外,還需要提供一個多語言的品牌庫信息。當用戶完成商品的購買,還會涉及到商品的支付、物流等。此外,對于跨境電商而言,還有一個非常重要的環節就是商品的通關,也就是“關檢物”相關的信息,其中也有多語言需要翻譯支持的場景。最后商品達到用戶手中了,網站當然還希望用戶能夠購買更多的商品,這里就涉及到商品的留存復購,也就是需要通過售后的實時溝通、專項的質量檢測、商品描述或者翻譯以及質量調研,使得用戶能夠通過對于商品源的反饋來提升轉化率。
其實,在上圖跨境電商的全鏈路中,每個環節都有一個具體的指標來衡量機器翻譯在其中所發揮的作用。對于多語言建站而言,可以觀測DAU;對于引流拉新而言,可以觀測整個站點的UV以及COST;對于到站搜索而言,可以關注商品List頁面到商品Detail頁面的轉化率;在用戶瀏覽商品信息的環節,則更加關注于從商品Detail頁面到最終下單購買的轉化率,最后的支付以及復購等也都有相應的指標進行觀測。
應用案例-多語言搜索
接下來針對于跨境電商中部分環節的具體案例進行分享。首先,大家都知道,搜索是每個電商網站流量的一個主要入口。那么,對于不同國家的電商網站而言,用戶當然希望使用自己的語言進行搜索,但是對于跨境電商網站而言,不可能花費很大的成本為每個國家的用戶都建立一套自己的搜索引擎,這樣的成本實在是太大了。所以阿里巴巴就統一采用了基于英文的索引,那么只需要將最終的用戶搜索詞轉化成為英文,再根據英文的索引去檢索用戶所需的商品信息就可以實現多語言搜索了。在下圖中所展現的例子中,就使用了多語言搜索。AliExpress的俄羅斯用戶就是用了俄語來搜索“麥克風”,接下來就會通過智能的語種識別出用戶所使用的語言是俄語,之后調用拼寫糾錯功能,這是因為在用戶輸入檢索詞的過程中,很有可能出現個別單詞的錯誤,因此智能拼寫糾錯就能夠將個別拼寫錯誤的詞糾正過來,再將糾正過的詞調用機器翻譯進而翻譯成英文的版本,最后調用搜索引擎拿到用戶想要的商品信息。這樣的一條鏈路能夠很好地提升用戶從List到Detail的轉化率。
應用案例-商品信息多語言化
當網站檢索到用戶所需要的商品信息之后,就引導用戶到達了商品的詳情頁面,這里就涉及到商品信息的多語言化。這樣用戶就會通過網站的內部導航找到自己想要的類目,再找到自己想要的商品,用戶在看過商品標題之后,往往會再看一下商品的詳細描述,有一些用戶還會看一下商品的評論。如果用戶通過這些并沒有找到自己想要的信息,那么很快就會關掉頁面,這樣很有可能這個用戶就流失了。其實,在做跨境電商的時候,需要將商品信息實現多語言化,讓用戶真正地讀懂和理解這個商品究竟在是在賣什么,它主要的功能是什么。
阿里巴巴在商品信息的多語言化方面做了非常大量的工作。下圖所展現的是阿里巴巴速賣通的場景下對于標題部分所做的工作。首先,大家可以看到,這個商品屬于英文的原發商品,而通過翻譯可以將其翻譯成為不同國家的語言。在下圖中,同樣的一條裙子的標題除了英文之外還被翻譯成了俄語和阿拉伯語兩個版本。
此外,對于商品評論而言,其實很多商品往往是缺乏評論的。因此需要將針對于同一件商品的不同語言發布的評論進行互相翻譯,在下圖的例子中就是將西語原發的評論翻譯成了俄語和阿拉伯語,這樣一來,用戶就能夠看到更多其他的消費者對于同一商品的使用感受了。
第三部分就是針對于商品詳細描述的多語言化。在阿里速賣通的場景下,一般而言,商家發布版本基本上都是英文為主的。那么速賣通就需要將英文原發的商品詳細描述,比如商品尺寸、質量屬性以及物流信息都翻譯成為其他語言的版本。
最后,在商品詳情頁還有一個用戶使用比較多的功能,其實這個功能在淘寶下大家也可能見過,就是“問大家”。在速賣通上,針對于“問大家”這個功能,需要將不同國家、不同語言用戶所提出的問題都翻譯成多個語言的版本,讓更多的人能夠得到自己所需要的信息,正如下圖所展現的就是將俄文的問題翻譯成了英文和阿拉伯語。
應用案例-通關翻譯
當用戶通過閱讀、搜索了解了商品的信息并且決定下單購買之后,網站最終還需要將商品郵寄到客戶手中。在跨境電商場景下還存在商品物流所必須經過的一個步驟,就是商品的通關。在通關時需要將英文商品或者其他語言的商品名稱翻譯成中文提供給中國海關。下圖中給出了一個例子,這個商品是一個手機支架,大家可以看到這個手機支架的英文名稱非常長,而海關可能并不希望看到這么長的描述信息,而是希望拿到商品的關鍵信息,速賣通就使用了NLP智能品名生成技術,從一長串的標題里面抽取出關鍵詞。如下圖的例子所示,速賣通就從中抽取出了“Phone Holder”關鍵詞,再把這個關鍵詞通過機器翻譯轉成中文的“手機支架”,之后在通過菜鳥的關務平臺將商品的中文關鍵詞進行備案以及清關,之后就能夠自動地完成整個商品出關的操作。
應用案例-多語言實時溝通
最后一個案例就是多語言的實時溝通,在交易前和交易后往往都會發生賣家和賣家之間的溝通。而Alibaba.com是一個B2B的場景,可能需要更多的售前溝通。在阿里巴巴的調研中發現,其實在國際貿易中的買家中的30%是使用小語種的,而大部分買家卻往往缺少小語種的溝通服務能力。因此,阿里巴巴開發了一套針對于多語言實時溝通場景的自動翻譯系統。在這個場景之下,首先支持多個語種之間的互譯,并且在特定外貿場景下對于術語的翻譯也是非常準確的,這是因為在背后擁有一個規模龐大的雙語術語庫。其次,還具有智能處理能力,多語言實時溝通系統具有智能的語種識別,可以根據用戶的場景自動地識別其使用的語種,再根據用戶所使用的語種進行自動翻譯,并且還提供了基于上下文的智能糾錯。大家都往往深有感觸,我們在聊天溝通的過程中往往經常會打錯字,而基于錯字進行翻譯肯定無法準確翻譯。而且還針對口語場景做了表述歸一化的統一處理。最后一點,多語言實時溝通系統還實現了跨境多語言溝通方案,首先這套方案支持多端包括PC、IOS、Android,能夠實現多語言信息的實時溝通,用戶可以基于機器翻譯或者譯文進行編輯,如果用戶具有相應的語言能力,其實可以根據機器翻譯的結果在發送前進行編輯。在很多場景下,需要對于特定的術語進行快速干預,將其翻譯成想要翻譯的文本,因此在這樣實時工作的場景下也支持實時干預的能力。
三、阿里機器翻譯技術亮點
前面的部分為大家整體地介紹了跨境電商的整體鏈路,并且抽取了部分環節的詳細例子進行了介紹。在第三部分將為大家介紹阿里機器翻譯的一些技術亮點,主要包括面向電商的阿里機器翻譯引擎所面對的挑戰以及技術的創新點。
搭建電商場景機器翻譯系統的挑戰
搭建電商場景機器翻譯系統的挑戰主要來自于三個方面,即翻譯質量、服務要求以及快速迭代。第一點就是翻譯質量,因為電商場景下往往與交易相關,因此對于翻譯的質量有著非常高的要求,不僅要求電商場景翻譯結果高可讀性要求,還要求領域相關的關鍵信息翻譯的準確性,這里的關鍵信息包括了品牌、關鍵屬性、尺寸、數字以及物流信息等,這些信息在電商場景下相對于通用場景下有著更高的要求。此外,還需要有更加靈活的干預機制,因為機器翻譯在一些場景下翻譯不能非常準確,一旦發現這些場景下的信息翻譯不準確的時候,就可以做出快速干預,及時地糾正翻譯結果。第二點就是對于服務的要求,這里包括高可用性的要求,因為會涉及到交易,因此不能夠在交易的過程中出現問題影響到整個交易的鏈路。此外,還需要有多區域的要求,阿里機器翻譯服務于整個阿里巴巴多個部門和團隊,各個團隊都分布在不同的區域上,那么就需要有多區域部署的要求。此外,還有高并發和高響應的要求,大家都知道阿里“雙11”場景下的流量是非常大的,在支持這樣大流量的場景的需求下,就需要滿足高并發的要求,并且在響應時間上也有非常高的標準。最后一點就是快速迭代,正因為阿里機器翻譯支撐了如此之多的業務,所以需要快速大規模語料訓練能力能夠在短時間內訓練出一個質量可用的模型;而且在場景如此多的情況下,經常會出現語種的擴展,因此阿里機器翻譯也需要語種快速擴展的能力;最后還有對于模型迭代更新效率的要求。對于上述三個挑戰,需要從三個方面進行解決。首先是模型,之后是數據,最后是工程,只有從這三個方面才能夠解決實際業務所帶來的挑戰。接下來就為大家介紹如何從模型、數據和工程三個方面應對挑戰。
模型
對于模型而言,為了保證電商場景能夠具有非常高的翻譯質量,所以在模型上對于不同的場景進行了區分,并且采用了多模型融合的機制。阿里機器翻譯在商品描述、評論以及溝通這種文本比較長并且對于整個句子順滑度要求比較高的場景下,采用了基于神經網絡機器翻譯的模型。而在像商品標題、搜索詞以及屬性等短文本的場景下,采用了統計機器翻譯的模型進行解決。而像數字、日期、單位、地址以及旅游場景下的一些菜單等使用了規則翻譯來進行解決。最后一部分,阿里機器翻譯會有一批翻譯記憶高精準的人工翻譯數據,在最外層做一層翻譯記憶的過濾,來完整地匹配待翻譯的文本。
在模型的網絡上也采用了Transformer新型神經網絡結構,這樣相比于傳統的神經網絡翻譯模型而言,翻譯質量的提升也比較明顯,訓練速度的提升也非常明顯。在剛剛結束的國際機器翻譯評測比賽上面,也對于這套模型進行了論證,并且在5項評測中獲得冠軍。
數據
其實在人工智能領域,除了模型之外,數據也起到了非常重要的作用。阿里機器翻譯所用的數據總結而言就是“領域”,也就是使用了大量與電商領域相關的數據,比如電商領域雙語的語料、電商領域專業的詞表、電商高頻短語、電商領域的單語語料、電商品牌詞表等,并結合了通用領域單語語料以及通用領域雙語語料等來訓練電商的機器翻譯引擎。在數量級上大概能夠達到10億級別的雙語平行語料、億級別的電商雙語平行語料、千萬級電商知識庫以及大規模行業多語言術語庫。而對于語料的主要來源而言,首先最大的是通過互聯網抓取的雙語平行語料;另外一部分是通過自動地術語挖掘產生領域相關的術語的語聊;最后一部分就是通過人工翻譯所提供的語料。
下圖展現了與數據相關的一整套數據體系,包含了數據獲取、數據精選以及電商知識庫的構建。對于數據獲取而言,首先阿里機器翻譯的大部分數據還是來自于互聯網,通過網絡抓取多語言網頁,對于這些網頁進行統一地解析、清洗和處理形成雙語語料,并且有較少的一部分是通過語料購買或者交換和人工翻譯生產出極少與領域相關的數據,并且對于少量的數據做一些領域相關的優化。在語料的精選方面,其實有不同層次的機制,基礎的就是基于一些規則的互譯質量的判斷、流利度的判斷以及N-gram的過濾。其次,還會有一些模型能夠篩選出領域相關的語料。最后一部分就是通過機器學習做更深層次、更細化的質量相關的工作。在電商知識庫的構建方面,則主要是依托于服務的業務方,比如Alibaba.com、AliExpress以及天貓國際等,從這些業務方的商品數據里面進行智能挖掘,挖掘出命名實體、同義詞、上位詞以及詞與詞之間的依存關系等,再將這些依存關系通過自動的雙語生成或者人工翻譯成多語言的版本,最終建立了多語言的電商支持數據。
工程
最后的一部分就是阿里機器翻譯在工程部分所做的事情,在這方面的工作主要包括了四個方面。第一方面是全球化部署,為了滿足分布在不同地區以及國家的業務,阿里機器翻譯目前在美國、新加坡、俄羅斯以及中國都部署了機房。第二部分就是分布式的訓練,這是依托于阿里巴巴集團的大規模分布式系統構建的一套分布式訓練的框架來提升整體的機器學習訓練速度。第三部分是并行計算,這部分是為了提升整個機器翻譯的吞吐量所進行的優化,因為在很多翻譯場景下都翻譯的是商品的詳細描述,針對于這樣的一大段文本進行了優化,也就是將這樣的一大段文本切分成不同的小文本,同時并行地調用翻譯引擎來提升整個吞吐量。最后一部分就是性能優化,性能優化主要是針對GPU的性能進行優化,來提升整個機器翻譯的響應時間。
四、阿里云機器翻譯產品介紹
前面介紹了機器翻譯技術的亮點和挑戰,最后為大家介紹一下本次在阿里云上發布的機器翻譯產品。阿里云上的機器翻譯產品主要是以API的形式進行發布上線的。大家可以在阿里云主頁上的導航欄中選擇“產品->人工智能->自然語言處理->機器翻譯”來查看機器翻譯產品的詳情。本次上線的產品主要有三個版本,通用基礎版API支持中英互譯,有免費額度,用戶試用為主;電商標準版API支持英中,英俄,英西,英法和英葡的互譯,在電商領域機翻質量有明顯優勢,適用于電商場景下的標題,商品描述,評價等領域;通用標準版API支持中英互譯,新語種持續增加中,適用于旅游、口語等通用場景。
本次的發布只是阿里機器翻譯開放的開始,后續將會有更多的能力通過阿里云對外輸出。在未來,阿里機器翻譯將會持續提升翻譯質量,保持將最新的模型能力對外更新。豐富API輸出能力,如支持用戶自定義翻譯結果。豐富開放場景,依托于阿里的優勢重點打造電商場景,同時補齊通用場景的短板。完善產品矩陣,支持文本、語音和圖像等多模態開放API。最后一部分就是支持定制化私有部署,用戶只需要提供自己場景相關的訓練數據,阿里機器翻譯就能夠幫助用戶做模型訓練、部署以及發布,用戶可以自己的環境下進行應用部署。
本文為云棲社區原創內容,未經允許不得轉載。
?
評論
查看更多