自然語言處理是一項利用計算機和軟件獲取人類語言(書面或口語)含義的技術。
什么是自然語言處理?
自然語言處理(NLP)使用 AI 處理和分析文本或語音數據,以便理解和解釋內容、對內容進行分類和/或從內容中獲得見解。
NLP 中包含自然語言生成(NLG),它會使用計算機創建人類語言文本。此外,自然語言理解(NLU)會錄入文本,理解上下文和意圖,然后生成智能回復。
垃圾郵件過濾程序、拼寫檢查程序、語法檢查程序、自動更正、語言翻譯、情感分析、語義搜索等都屬于 NLP ?;?Transformer 架構的新深度學習(DL)方法的出現,為 NLP 技術的性能和功能帶來了革命性的變化?,F在,先進的 NLP 模型已成為現代搜索引擎、語音助手和聊天機器人的核心。這些應用程序在自動處理日常訂單、路由查詢和回答常見問題時也變得日益純熟。
為什么選擇 NLP?
NLP 的應用已相當廣泛,并有望以幾何級數增長。據一項研究調查估計,在全球市場中,與自然語言處理相關的產品和服務將在 2025 年增長到 430 億美元;而 2017 年時,這一數字為 30 億美元。這一驚人的 14 倍增長也證明了自然語言處理解決方案的廣泛應用。
進一步推動這一增長的是,一個組織內僅有 15% 的數據存儲在企業數據庫中這一事實。這些數據包括文本、電子郵件、會議筆記、電話轉錄等。自然語言處理有望釋放隱藏在所有這些數據中的業務價值,使其像存儲數據一樣對業務決策者發揮作用。
NLP 的工作原理是什么?
機器學習(ML)是推動當今大多數自然語言處理解決方案的引擎,并將推動它們進一步發展。這些系統使用 NLP 算法來理解詞語的使用方式。它們從書籍、短語和慣用語中提取所有信息后,通過 NLP 識別詞語和短語之間的模式和關系,來“學習”理解人類語言。
通常,在 NLP 應用中,會使用詞嵌入等技術將輸入文本轉換為詞向量(一個詞的數學表征)。借助此技術,在將句子中的每個詞輸入到深度學習模型(例如RNN、LSTM 或 Transformer)前將其翻譯成一組數字,以便理解上下文。神經網絡在進行自我訓練時,這些數字會隨著時間的推移而發生變化,為每個詞編碼語義和上下文信息等獨特屬性。這些 DL 模型為特定語言任務(例如下一詞語預測和文本摘要)提供適當的輸出,這些任務用于生成輸出序列。
但是,詞嵌入等文本編碼機制可能會為捕獲細微差別帶來挑戰。例如,bass fish 和 bass player 具有相同的表征。在對長段落進行編碼時,它們還可能在結尾丟失掉文章開頭獲取的上下文。BERT(Bidirectional Encoder Representations from Transformers)是深度雙向的,能夠比其他文本編碼機制更好地理解和保留上下文。訓練語言模型時,遭遇的一個關鍵挑戰是缺少標記數據。BERT 在無監督任務上接受訓練,通常使用書籍語料庫、英語維基百科等的非結構化數據集。
GPU:加速 NLP
讓計算機理解人類語言及所有細微差別,并做出適當的反應,這是 AI 研究人員長期以來的追求。但是,在采用加速計算的現代 AI 技術出現之前,構建具有真正自然語言處理(NLP)功能的系統是無法實現的。
一個由數百個核心組成的 GPU,可以并行處理數千個線程。GPU 已成為訓練深度學習模型和執行推理的首選平臺,因為它們的性能比純 CPU 平臺高 10 倍。
自然語言處理中近年來不斷取得的進步和突破是驅動 NLP 增長的一個因素,其中重要的是部署 GPU 來處理日漸龐大且高度復雜的語言模型。
像 BERT 這樣基于 NLP Transformer 的深度學習模型不需要按順序處理連續數據,與 RNN 相比,可以在 GPU 上實現更多的并行化,并減少訓練時間。BERT 使用無監督式學習方法的能力、使用預訓練模型進行遷移學習的能力,以及使用 GPU 進行加速的能力,均使其在行業中得到廣泛應用。
對支持 GPU 的模型經過快速訓練和優化后,語音輔助應用程序中的響應時間從數十秒縮短到幾毫秒。這使得此類計算機輔助交互盡可能地接近“自然”。
NLP 用例
| 初創公司
自然語言處理應用在過去十年呈爆炸式增長,因為由 GPU 驅動的遞歸神經網絡的改進提供了性能更好的人工智能。這使得初創公司得以提供語音服務、語言教師和聊天機器人等服務。
| 醫療健康
醫療健康面臨的困難之一是難以獲得。打醫生辦公室電話并一直等待的情況十分常見,與索賠代表聯系可能同樣困難。通過實施 NLP 來訓練聊天機器人是醫療健康行業的一項新興技術,可以解決醫療專業人員的短缺問題,并開創與患者的溝通渠道。
NLP 的另一個重要的醫療健康應用程序是生物醫學文本挖掘(通常稱為 BioNLP)。鑒于生物文獻數量眾多,以及生物醫學出版速度不斷提高,自然語言處理是一個關鍵的工具,可以在已發表的研究中提取信息,推動生物醫學領域的知識進步。這非常有助于藥物研發和疾病診斷。
| 金融服務
NLP 是為金融服務公司構建更好的聊天機器人和 AI 助理的關鍵組成部分。在眾多用于基于 NLP 的應用程序的語言模型中,BERT 已成為機器學習領域 NLP 的領軍者及語言模型。借助 AI ,NVIDIA 近期打破了 BERT 訓練速度的記錄,有助于釋放未來幾年內在線提供的數十億預期對話式 AI 服務的潛力,使其達到人類水平的理解能力。例如,銀行可以使用 NLP 來評估信用記錄很少或沒有信用記錄的客戶信譽。
| 零售
除了醫療健康外,聊天機器人技術還常用于零售應用程序,能夠準確分析客戶查詢,并生成回復或建議。這可簡化客戶流程,并提高商店運營效率。NLP 還用于文本挖掘客戶反饋和情感分析。
加速 AI 和 NLP 的 NVIDIA GPU
借助 NVIDIA GPU 和CUDA-X AI庫,可快速訓練和優化大量的先進語言模型,從而在幾毫秒或幾千分之一秒內運行推理。這是一項重大進步,可以結束快速 AI 模型與大型復雜 AI 模型之間的權衡。
NVIDIA 的 AI 平臺率先將BERT的訓練時間控制在一小時之內,并在 2 毫秒多一點的時間內完成 AI 推理。在與復雜語言模型協作時,NVIDIA GPU 的并行處理能力和Tensor Core架構可實現更高的吞吐量和可擴展性,從而為 BERT 的訓練和推理提供優異的性能。借助這種突破性的性能水平,開發者能夠為大型應用程序應用先進的語言理解技術,供全球數億消費者使用。
早期采用 NVIDIA 性能提升技術的公司包括 Microsoft 以及全球一些最具創新性的初創公司。這些組織借助 NVIDIA 平臺為客戶開發高度直觀、響應即時且基于語言的服務。
原文標題:NVIDIA 大講堂 | 什么是自然語言處理?
文章出處:【微信公眾號:NVIDIA英偉達】歡迎添加關注!文章轉載請注明出處。
審核編輯:湯梓紅
-
NVIDIA
+關注
關注
14文章
5025瀏覽量
103267 -
自然語言處理
+關注
關注
1文章
619瀏覽量
13588 -
nlp
+關注
關注
1文章
489瀏覽量
22058
原文標題:NVIDIA 大講堂 | 什么是自然語言處理?
文章出處:【微信號:NVIDIA_China,微信公眾號:NVIDIA英偉達】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論