知識圖譜在圖書情報界稱為知識域可視化或知識領域映射地圖,是顯示知識發展進程與結構關系的一系列各種不同的圖形。用可視化技術形象的描述學科知識資源及其載體,挖掘、分析、構建、繪制和顯示知識及它們之間的相互聯系。
隨著知識圖譜在搜索領域的大獲成功,以及知識圖譜進行中推廣,現在自然語言處理有明顯和知識圖譜結合的趨勢。特別是在特定領域的客服系統構建模型中,這種趨勢就更明顯,因為這些系統往往要關聯很多領域的知識,而這種知識的整合和表示,很適合用知識圖譜來解決。
隨著知識圖譜基礎工程技術的完善和進步,圖譜構建的容易程度也大大提高,所以自然語言處理和知識圖譜的結合就越來越成為趨勢。目前各項自然語言處理技術基本已經比較成熟,但是很多技術的效果還達不到商用的水平。特別是在語義理解方面,和商用還有比較大的差距。不過隨著各個研究機構和企業的不斷努力,技術研究也一直在不斷的進步。
對于新型的深度學習框架,目前在自然語言處理中的應用還有待進一步加深和提高。比如對抗學習、對偶學習等雖然在圖像處理領域得到了比較好的效果,但是在自然語言處理領域的效果就稍微差一些。
目前人機對話、問答系統、語言翻譯是自然語言處理中的熱門領域,各大公司都有投入大量的精力在做自己的語音助手。這些上層的應用,都依賴于底層技術和模型的進步,雖說整個自然語言處理的效果差強人意,但是對于底層技術的研究應該說是目前研究的熱點。
知識結構方法
要做算法研究,肯定需要一定的知識積累,對于知識積累這部分,建議是先學數學理論基礎,學的順序可以是代數→概率論→隨機過程。當然這里面每一科都是很大的一個方向,學的時候不必面面俱到,所有都深入理解,但是相對基礎的一些概念和這門學科主要講的是什么問題一定要記住。
在學習了一些基礎數學知識之后,就開始編寫算法。這里的算法模型,建議跟著具體的業務來學習和實踐,比如可以先從識別垃圾郵件這樣的demo進行學習實驗,可以改進里面的參數或者實現方法,看看能不能達到更好的效果。初步學習還是需要下苦功夫一步一步模仿,然后改進,才能深入的掌握相應的內容。
工具
工欲善其事必先利其器,所以好的工具往往能事半功倍。在工具的選擇上,建議最高優先級的是Python,畢竟其的宣傳口語是:人生苦短,請用Python。第二優先級的是Java,基于Java可以和現有的很多框架進行直接交互,比如Hadoop、Spark等等。
對于Java就要學習一些基礎的數據結構,對于Python也可以按照這個思路,Python本身也是一個高級編程語言。掌握了基礎的數據結構之后,也可以一步一步的實現具體的功能,在學習的時候,要多試驗,求同存異。
緊跟時代
自然語言處理領域也算是一個知識密集型的行業,知識的更新迭代非常的快,要時刻關注行業、領域的最新進展。這個方面主要就是看一些論文和關注一些重要的學術會議,對于論文的獲取,Google Scholar、arxiv都是很好的工具和資源。
-
圖像處理
+關注
關注
27文章
1292瀏覽量
56747 -
自然語言處理
+關注
關注
1文章
618瀏覽量
13561 -
知識圖譜
+關注
關注
2文章
132瀏覽量
7709
原文標題:自然語言處理現狀和學習方法
文章出處:【微信號:NeXt8060,微信公眾號:HALCON圖像處理與機器視覺】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論