自然語言處理(NLP)在語音和文本方面的改進將助力主流技術的發展。例如以人類自然發音朗讀電子郵件時,如果用戶對電子表格中的數據提出質疑,Excel會自動以圖表和數據透視表的形式回答相關問題。
隨著NLP變得更加準確并被廣泛使用,其不僅能夠支持預置主題的聊天機器人,還能夠處理半結構化和非結構化數據。知識挖掘功能可以幫助用戶洞察業務流程、資產和負債信息,從而幫助創建更加合理的工作流程以及更加實時地監測企業的運營。
NLP有著廣泛的應用范圍,翻譯和語言生成、分類和聚合、情感分析,以及其他信息提取、Siri等虛擬助手都在NLP的應用范圍之內。例如拼寫檢查、對電子郵件和消息的回復給出建議等簡單的NLP如今已經被廣泛使用。
Apexanalytix負責應用與高級技術的高級副總裁Walt Kristick解釋說:“NLP可以將單詞分解為最基礎的形態,識別它們之間的模式、規則和聯系。人類的書面用語和口語在經由計算機算法解析和翻釋之后,系統能夠學習和理解人類語言。提高NLP對文本和非相關數據源的分析和提取含義的能力,尤其在醫療保健和生命科學領域當中,已經成為了用戶的關注點。”
下面我們將介紹一下NLP的現狀以及其適用范圍。
1. NLP服務的優勢
除了Python NLTK、Sanford CoreNLP和Apache OpenNLP之類的框架外,許多算法也可用于構建NLP任務,但是往往效率越高的模型,其規模也就越龐大。有著170億參數的微軟圖靈自然語言生成模型是有史以來發布的最大模型,即便是BERT和GPT-2,其參數也有數十億之多。
即便企業擁有NLP專家,如果想根據自身情況定制相關的模型也是一項挑戰。微軟主管對話式AI的副總裁Lili Cheng警告說:“僅僅使用這些模型并不能處理企業中復雜的事情。對于許多企業而言,托管這些大型模型、對其有效管理和讓其正常運行非常是具有挑戰性的。雖然有人愿意這樣做,但是我們相信更多的客戶希望有針對性地進行定制和添加信息。”
當領導者開始迅速有針對性地招募某一任務所需要的所有人員,那么就意味著變革開始了。這三種方式都可以幫助領導者建立一個更好的新常態。即使是擁有AI人才的企業也經常會從微軟、亞馬遜、谷歌和IBM等提供商那里購買NLP服務,以使專業開發人員和商業用戶也能夠利用該技術。
作為微軟的客戶,Telefonica在內部設置有AI小組。即便如此,為了讓沒有開發人員專業知識的業務用戶可以使用Q&A Maker等服務來創建自己的工具,Telefonica也在使用微軟的Power平臺。Cheng說:“為了讓用戶能夠以搜索或對話的方式提出問題和獲得答案,你可以將其指向PDF文件或網頁版FAQ 。”
NLP的一個關鍵應用是聊天機器人。聊天機器人可以幫助接受訂單、從FAQ中提供答案、進行路線查詢、預定會議并在必要時與人類進行對話。
Confirmit產品管理高級總監Paul Quinn表示,NLP是一種強大的工具,可幫助企業從大量文本和語音數據中獲取客戶洞察力。他說:“企業通常都擁有超過100TB的非結構化數據,從呼叫中心提示、客戶電子郵件到調查評論,無所不包。如果企業想改善客戶體驗或是想獲得有關自己品牌的詳細洞察力,那么他們都可以使用NLP篩選大量數據,并從中找到有用數據。”
IBM研究員兼AI首席架構師Dakshi Agrawal表示,不僅僅是零售業,其他面向客戶的行業也都可從NLP中受益。任何與客戶打交道的企業都可以利用NLP從他們的互動中獲得洞察力。Agrawal說:“與和外部客戶及合作伙伴打交道一樣,許多企業也將這一技術用到了內部員工和HR交互當中。”
為了在客戶使用不同術語進行報告時,將問題的分組變得更為準確,除了關鍵詞提取外,還可以在主題聚合中使用句子嵌入等NLP技術。這樣可幫助發現趨勢性問題或重復出現的問題。
獨立的英國運輸行業監管機構Transport Focus已經在使用Signoi來查看通勤者和旅客對各種火車服務的最大擔憂。例如,商務旅客對火車上人滿為患感到不滿意,而那些乘坐火車旅行的人希望停車位更便利一些,放置行李和自行車的空間更大一些。
微軟的Power BI業務分析服務和Salesforce.com的Tableau均提供NLP自己生成語言對結果進行解釋的功能。當用戶可以輸入有關其數據的問題后,這些服務可以提供相應的圖表或自動分析。
2. 了解企業知道什么
NLP可幫助企業了解其已經知道了哪些知識。ABBY的合同文本分析、Exigent的合同管理解決方案、Seal的合同發現與分析等由AI支持的專用工具可從合同中提取條款和期限,從而幫助企業了解自己承諾了哪些內容。XML聯合發明者Jean Paoli創立了一家名為Docugami的初創企業。該公司成立的初衷是讓結構化程度較低的文檔實現這一功能。
Paoli 說:“企業的數據只有15%被存儲在了數據庫當中。我們在交流中都會用到文本、電子郵件和文檔。結構化數據庫不會告訴我們問題的真相,但是文檔會。對于像商業房地產這類的文件密集型業務,一線業務用戶平均每周要撰寫15份租賃協議。每到周一,經理會發出一連串提問:‘你做了哪些工作?截止日期是哪天?有沒有談到停車位的問題?他們是否希望我們保留所有權?’一旦簽署文件,公司就必須要遵守,不幸的是這些信息往往會被淹沒在大量的文件當中。”
無論是星巴克要求房東就租賃協議重新展開談判,還是餐廳需要了解其保險政策的內容,許多事情現如今已經變得舉足輕重。而這些“隱性數據”可以取代星期一上午的例會,提高業務敏捷性。
Paoli說:“由于企業目前正在重新考慮自己的業務模式,這時使用NLP來分析業務文檔就變得尤為重要。企業可能不得不就所有的事情重新進行談判,他們需要了解自己的義務和風險。”專業的服務公司Accenture就是這樣做的,他們通過NLP對100多萬份合同進行了分析,以了解自己的承諾和責任。
對于那些沒有自己NLP專家的企業而言,Docugami的SaaS產品是一個不錯的選擇,其有30個示例文檔可供使用,并且可自動從存放業務文檔的文件夾中進行選擇,在30分鐘內即可向創建文檔的業務用戶進行反饋。隨后Docugami會將信息存入數據庫中,以幫助創建可通過瀏覽器查閱的儀表板,或是與Excel和Tableau進行集成。
3. 讓會議傳遞的信息變得更加明確
雖然一些企業的電話已按要求被記錄下來,但是卻很少被分析,問題的癥結在于從會議和對話中提取有用信息是一項繁重的人力勞動。又有多少企業會通過會議上的發言內容了解項目進度或截止日期呢?
盡管員工花在會議上的時間在30%,甚至更多,但是會議中的大量信息卻無法像其他的業務數據那樣被捕獲。PowerPoint幻燈片和Teams會議中的實時字幕以及Azure Streams廣播平臺中可搜索的實時會議轉錄功能也都可以不需要人工記錄就可以提供頗具效率的轉錄。
除了圖像識別外,這些平臺未來還會使用轉錄和文檔分析總結提煉會議中的主要內容,以便團隊在會議結束后的后續工作中能夠查閱這些內容。在過去15年中,橋水基金(Bridgewater Associates)記錄了所有的內部會議,所有員工都可查閱這些會議記錄。盡管如此,還是很少有人去翻閱,其中一個原因是這些記錄難以被檢索到。為了解決這個問題,橋水基金開始使用Otter提取這些會議內容。
具備語音轉文本功能的Azure Cognitive Services API不久將開通轉錄上傳至OneDrive上的音頻文件的功能。雖然使用這些API的轉錄應用程序已經被開發人員開發出來了,但是如果直接將這一功能內置到平臺中無疑可以得到更廣泛的使用。
4. 分析與準確性
雖然用戶可以通過時間軸的方式在內容中進行檢索,但是NLP的最佳使用方法并不是一字不差的完整轉錄。
Otter會將提取的標簽作為摘要,以方便用戶了解文本中的內容。自動編寫的文檔摘要正在在成為工具,例如IBM Watson的自然語言理解。雖然Otter也在研發,但是用戶仍必須要記住相關內容才能查閱。NLP未來會加入會議分析功能。例如同一主題是否會被繼續討論,截止日期是否會被不斷推遲等等。
轉錄的準確性是這一切的生命線,而準確性的衡量非常復雜。雖然NLP系統在許多方面的準確性已經可與人類媲美,但是它們還是存在短板,例如無法對你還未著手做的工作進行準確比較,沒有一個統一的衡量標準。
微軟的研究人員稱:“雖然如今多模式系統中融合了各種功能,但是整合在一起就不一定可行了。例如,用戶可能會發現對話系統很出色,但是將語音、語言和視覺和文檔整合在一起,那么對話系統并不能真正發揮很好的作用。”
錄音質量、背景噪音、口音以及談話內容都會影響到轉錄的準確性。如果背景安靜且說話的人母語為英語,那么準確率會在95%以上。在實際使用中雖然轉錄會有一些作用,但是距離完美還相差甚遠。
用戶在使用NLP之前就要明確自己能夠接受的錯誤率是多大。此外,要想能夠被準確識別,用戶還應精心準備好行業術語、產品名稱、員工姓名以及相應的概念和相關詞匯。無論哪種NLP工具都不例外。
微軟的研究人員稱:“我們的期望值不能太高。人工智能雖然不能解決所有的問題,但是自然語言工具卻可以改善許多問題。如何有效地將信息組織起來,從而從文檔中挖掘出更多的信息,如何讓專業人員進行指導才是當今企業面臨的最大問題。”
責編AJX
-
機器學習
+關注
關注
66文章
8418瀏覽量
132646 -
自然語言處理
+關注
關注
1文章
618瀏覽量
13561 -
nlp
+關注
關注
1文章
488瀏覽量
22038
發布評論請先 登錄
相關推薦
評論