百度稱得上是國內應用深度學習的先鋒,早在2012年初,百度就在語音識別上開始規模應用深度學習算法并取得了非常好的效果。當年年底,百度CEO李彥宏宣布成立公司的第一個研究院:百度深度學習研究院。當時,世界上只有谷歌、微軟等少數幾個公司公開宣布在深度學習、人工智能領域進行戰略性的資金投入。
經過四年的發展,百度深度學習技術已經滲透到百度的各個產品中,如網頁搜索、廣告點擊率預估模型、百度殺毒等。深度學習技術極大地提高了百度產品的用戶體驗。例如百度的語音識別,經過四年的磨練,其識別準確率從當初的80%提高到今天的96%。
除了率先在各個產品線引入前沿的深度學習算法外,百度在人工智能應用方面還有更長遠的布局:
1. 建立百度研究院,下設硅谷人工智能實驗室、北京深度學習實驗室、北京大數據實驗室等三大前沿實驗室。
2. 2014年,人工智能領域最負盛名的權威學者吳恩達加入百度。
3. 同年,在百度技術開放日發布了大數據引擎,對外開放大數據及人工智能能力。
4. 在百度技術節上,百度高級副總裁王勁描繪了“萬物智能”的愿景,展示了百度為迎接萬物智能時代所做的技術布局。
5. 2015年在百度世界大會上推出了“度秘”。度秘是萬物皆智能的一個集中體現,可成為人們生活中的智能秘書,通過語音對話或者圖像可以自然地和人進行交流,甚至都不需要事先的交互,僅憑借歷史信息、傳感器信息、周圍環境變化就能判斷一個人的需求。如果你餓了,它可以幫你訂餐;你生病了,可以告訴你吃什么藥;如果明天下雨,會提醒你帶上傘;若你需要出行,會幫你訂好酒店、機票等等。不過,這些看似平常的“秘書”服務,如果要真正達到好用的狀態,還需要有非常先進的人工智能技術做支撐。
人工智能對計算機系統及體系結構的挑戰:
人工智能的應用包括云(數據中心)和端(智能設備)兩部分。云端除了訓練(離線訓練),還有在線服務。訓練是指利用訓練數據,選擇合適的訓練方法,訓練出一個模型。在線服務是指利用訓練出來的模型在線響應用戶的請求。端部分也是人工智能的一個強需求,按照“萬物智能”的愿望,很多終端設備,如智能輔助駕駛、無人車、智能攝像頭、工業物聯網(Internet of Things,IoT)等等,都能運行人工智能的算法,智能地響應外部請求。
深度學習的離線訓練是工業界和學術界研究最多、關注最多的領域。自深度學習熱潮席卷而來,無論是學術界還是工業界,涌現了很多新的、面向深度學習算法和應用設計的系統,如谷歌提出的參數服務器(parameter server),其他人通過借鑒這一思想,根據不同的應用場景,設計了各種不同的系統。
在體系結構方面,深度學習訓練大多是基于圖形處理單元(GPU)及無限帶寬(infiniband)的高速互聯網絡。使用圖形處理單元來做大規模的矩陣計算,再用無線帶寬高速網絡進行分布式參數更新。這種架構在工業界應用非常普遍,很多專有的服務器里通常帶有8個圖形處理單元,服務器之間則通過無線帶寬互聯。很多論文都在研究如何利用服務器內8個圖形處理單元的局部性、無限帶寬的遠程直接數據存?。≧emote Direct Memory Acces,RDMA)以及圖形處理單元的計算能力來完成完整的分布式深度學習訓練任務。圖形處理單元加無限帶寬的硬件架構目前比較適用于深度學習的訓練以及工業界的規模應用。這是因為這兩種硬件的性能都不錯,而供應商眾多,容易獲得產品及技術支持。
在線服務方面,無論是工業界還是學術界,公開的信息都比較少。能有機會進行大規模部署人工智能服務的,只有像百度這樣技術驅動的大型互聯網公司,而這些公司一般出于保密考慮,會延后發布自己的核心技術。至于人工智能的終端設備,雖然媒體一直在勾畫這個領域的宏偉藍圖,但實際上能成功進行規模應用的并不多,所以工業界和學術界對這部分內容公開得也比較少。
其實,無論是離線訓練、在線服務還是智能設備,內部運行的都是一些常用的深度學習算法,如深層神經網絡(Deep Neural Networks,DNN)、遞歸神經網絡(Recurrent Neural Network,RNN)/長短時神經網絡(Long Short Term Memory,LSTM)、卷積神經網絡(Convolutional Neural Network,CNN)。這些算法存在一些共性,比如(1)都是計算和訪存密集型;(2)主要的計算算子是矩陣操作、卷積、激活函數等;(3)對于離線訓練,考慮到分布式實現,對節點間的通信帶寬和延時要求很高。
從大規模部署應用的角度看,無論是哪種類型的應用,衡量體系結構好壞的最終標準是效率,包括能耗效率和成本效率。只有這兩個效率足夠高,體系結構才有生命力。例如對于嵌入式終端,往往需要考慮極致的能耗效率和成本效率,有時候甚至需要對算法做些剪枝和模型規模限制。對于數據中心而言,成本和功耗也是規模部署要考慮的第一要素。
如今,人們一提到深度學習的硬件架構,首先就會想到圖形處理單元。這主要是因為,在便于采購的硬件里,圖形處理單元確實能提供較好的數學計算能力和訪存帶寬。但對于能耗和成本效率,即使應用在數據中心,圖形處理單元離我們的目標也還有很大的改進空間。所以我們需要重新思考,如何面向人工智能的典型應用和算法,設計一種新的、通用的體系結構。這種體系結構既能實現極致的能耗和成本效率,也能靈活延伸擴展,易于支持離線訓練、在線服務和智能終端三種場景。
責任編輯:tzh
-
計算機
+關注
關注
19文章
7525瀏覽量
88319 -
人工智能
+關注
關注
1792文章
47514瀏覽量
239232 -
工業物聯網
+關注
關注
25文章
2382瀏覽量
64564
發布評論請先 登錄
相關推薦
評論