商業價值和人工智能原理| 數據驅動的投資者
難以獲得商業價值。 我的意思是非常辛苦…就高級分析而言,該過程甚至…
演算法
人工智能已經成為一種重要的技術趨勢。 現在各行各業都在擁抱AI,并且與AI的聯系更加緊密。 下圖列出了AI發揮重要作用的領域,不僅包括與AI密切相關的領域,還包括由AI間接賦予的那些領域。
在我們超越自己之前,我們需要了解AI,其應用程序和系統背后的思想。
隨著AI在過去80年來的發展,我們已經從圖靈測試到全民面對變革取得了成就。 機器像人類一樣使用AI來回答問題并創建或執行計算和分析任務。 在某些領域,計算機已經實現了人類的能力。 例如,2019年發布的人臉變化應用程序基于AI領域中深度學習和神經網絡的廣泛應用。
當前,在我們的日常工作和生活中使用了許多AI應用程序來代替人工工作。 例如,埃隆·馬斯克(Elon Musk)的AI項目能夠模擬人腦的操作。 但是,隨著AI的飛速發展,也出現了一些我想稱之為“假AI”的例子。
在AI的開發過程中,我們不得不面對幾個虛假的AI項目,例如,一個嚴重的虛假AI項目,欺騙了2億元人民幣(超過2800萬美元)的投資者。 因此,我們需要更好地了解什么是AI以及如何使用AI。
在學術界,人工智能的定義有些不同。 人工智能是對人類智能的模擬,能夠接收和分類信息,合理地執行一系列任務并基于此做出決策。
它的主要特征之一是采取理性行動的能力。
AI過程從感知到決策反饋。 決定AI系統是否可以采取適當行動的關鍵因素是它們如何感知有關外部世界的信息。 由于AI試圖模擬人的大腦,因此感知過程實際上是理解和學習的過程。 這是深度學習試圖通過AI解決的問題。
深度學習
只有當外部信息(例如視頻,文本或語音命令)轉換為機器語言時,AI才能接受和響應。 從AI的早期開始,科學家就開始考慮和研究此問題。
隨后,人們開始討論和研究如何通過視覺感知來輸入信息。 2012年,加拿大多倫多大學ImageNet競賽的獲勝者Geoffrey Hinton和他的學生Alex Krizhevsky設計了一個解決方案。 那年之后,提出了更深的神經網絡,例如著名的VGG和GoogLeNet。 這些神經網絡為傳統的機器學習分類算法提供了出色的性能。
AlexNet深度學習的發展歷史
簡而言之,AlexNet的目的是從大量對象中準確識別命令中所需的對象。 該模型的應用加速了圖像識別領域的發展,目前已被廣泛使用。
像我們的人腦一樣,神經網絡使用多層次的學習模型,并且隨著它們的不斷學習而變得越來越復雜。 假設您想從數百萬個圖像中找到標記為“貓”的圖像,并在一個非常大的數據集上訓練一個經過編輯的視覺網絡模型。 然后,通過模型迭代實施更復雜的訓練。
目前,常用的RestNet模型的深度超過一百層,并結合了一些最新的科學研究發現,例如下圖底部所示的快速橋連接。 這使用戶可以快速有效地訓練深度網絡。 最終,這解決了視覺感知的問題。
阿里云:智能航空圍裙管理
該解決方案使用AI來識別飛機類型,登機門和機場車輛,并將它們反映在實際地圖上。 它還允許用戶在飛行過程中看到飛機的軌跡。 該信息可以用作AI管理的輸入信息,從而使機場的運營更加方便和有效。
如前所述,深度學習是一種重要的感知模式和方法。 深度學習算法主要包括:
· 資料標記
· 算法模型開發
· 高性能的分布式培訓
· 模型優化
· 模型部署
感知之后,AI系統需要做出決策。 深度學習是一種黑盒操作,可以學習和感知外部信息,但不能提供任何解釋感知問題原因的反饋。 因此,分析和反饋需要決策能力。
傳統機器學習的示例主要包括決策樹算法和邏輯回歸。 例如,銀行發放貸款的過程是一個決策過程,在平衡各種因素后輸出決策。 我們可以使用決策樹輸出“是”或“否”的判斷,以確定是否授予貸款。 Logistic回歸是指兩種數據之間的相關性。 這是一種輸出精確解的數學方法。
實際上,深度學習和機器學習是互補的。 深度學習可以解決感知問題,例如計算機視覺和語音識別。 它使用神經網絡體系結構解決了許多感知問題,但無法解釋感知問題。 傳統的機器學習不提供這種用戶友好的感知功能。 但是,它的模型相對較小,可以直接解釋,這在財務和風險控制方案中是必需的。
人工智能早已應用于廣告領域。 淘寶是最常見的廣告場景之一。 賣方首先根據消費者的個人瀏覽信息調查用戶的偏好,然后通過智能推薦系統推送與消費者搜索相關的產品。 這種智能算法的廣泛應用使用戶信息挖掘更加高效和精確。
感知和決策都取決于算法。
· 感知:感知過程與深度學習算法有關,涉及數據標記,算法模型開發,高性能分布式訓練,性能優化和模型部署。
· 決策:決策過程與傳統的機器學習算法和深度學習算法有關。 它涉及行業行為數據的收集,結構化和非結構化數據處理,數據和算法的組合建模,算法開發培訓和調整,模型部署以及實時培訓反饋。
人工智能系統
隨著算法的快速發展,相應的基礎架構支持變得越來越重要。 這需要AI系統的支持。 構建AI或機器學習系統的兩個基本因素是算法和計算能力。 算法創新是由計算能力的突破驅動的。
下圖顯示了到2019年AI所需的計算能力。與AlphaGo Zero所需的計算能力相比,AlexNet對計算能力的需求增加了300,000倍。 在這種情況下,算法迭代和算法實現的解決方案對系統提出了更高的要求。
下圖顯示了AlexNet在2013年的系統。只需在機器上添加GPU,培訓費用約為每天500瓦,共7天。 這意味著業務模型的迭代周期約為一周。
在當今企業需要快速開發廣告推薦和其他模型的時代,一個星期的模型迭代周期太長了。 因此,越來越多的人對使用大型集群或芯片為AI系統提供更高的計算能力感興趣。 根據麻省理工學院在2014年進行的比較,一個人在一分鐘內可以處理約77張圖像,而單個GPU可以在同一時期內處理230張圖像。 盡管單個GPU的處理速度不會比人類的處理速度快多少,但我們可以通過GPU集群來實現更大規模,更快的計算。 如下圖所示,512個GPU群集在一分鐘內可以處理600,00張圖像。
在設計AI系統時,您需要專注于如何實現高性能存儲,實現機器之間的快速通信以及維護分布式集群的穩定性。 目前,阿里云擁有一個內部Eflops平臺,該平臺可在三分鐘內實現10′1的計算,每分鐘消耗128 KW的電量。 這樣的系統在2015年之前是不可想象的。我們實現這種功能的能力主要是由于大規模集群和系統底層芯片的可擴展性。
目前,世界上許多企業,特別是中國的企業正在研究和開發高性能芯片,阿里巴巴也不例外。 2019年,阿里巴巴發布了全球性能最高的AI推理芯片,漢光800。該芯片在實際的城市大腦和航空大腦場景中進行了測試,達到了每秒近80萬張圖像的峰值性能。 這表示性能比上一代提高了約4000%。
通過增加軟件和硬件的復雜度,資源管理,有效的調度和系統范圍的優化,增加系統復雜度會帶來一系列問題。 這是系統開發過程中所有各方都必須面對的挑戰。
您必須注意,AI集群不是通用集群。 在AI訓練期間,子任務需要定期同步,并且不同機器之間需要高性能的通信。 在大多數情況下,使用基于GPU或NPU的專用組件。 當前,不同的計算模型和交互模式對AI培訓構成了重大挑戰。
人工智能用于各種阿里巴巴業務場景。 因此,我們可以使用實際的AI應用程序來優化平臺設計。 例如,淘寶移動的Pailitao(Snap-and-search)分類模型具有數百萬個類別,淘寶的Voice + NLP解決方案以及Alimama的廣告推薦系統。
經過優化的Apsara AI平臺分為三層,分別是底層的基礎架構,中間的培訓和推理框架以及頂層的開發平臺。 AI平臺有三種重要類型:
· 輕量級AI開發平臺:這些平臺可幫助算法和數據科學家執行一鍵式開發,調試和部署。
· 人工智能和大數據協作開發平臺:這些平臺可幫助用戶快速開發面向大數據的業務系統。
· AI推理服務平臺:這些平臺解決了計算資源問題,并提供了推理所需的模型訓練,部署和性能監控。
這三種類型的平臺支持算法API的輸出以及垂直域平臺和大腦解決方案的開發。
在深度學習領域,斯坦福大學推出了一個稱為DAWNBench的基準。 與以前的最佳性能相比,阿里云的機器學習解決方案將性能提高了約10%。
如今,人工智能技術功能在提高資產利用率和滿足不同場景的需求方面發揮著重要作用。 全面的AI技術能力主要取決于以下基礎架構和服務:
· 基本硬件:提供一般的計算能力和AI計算能力。 它還通過基礎架構即服務(IaaS)提供云功能。
· AI云服務:此基礎平臺即服務(PaaS)層通過易于訪問的軟件和硬件環境提供了適合絕大多數用戶的計算能力。
· 高性能計算:這將加速核心AI計算引擎。
· AI系統框架:這提供了AI計算模型和跨體系結構建模,迭代和部署的完整抽象。
· AI托管平臺:這提高了算法研發的共享部署和輸出效率。 它還提供了具有較高用戶粘性的開發平臺。
智能計算與數據計算
人工智能用于智能計算,大數據用于數據計算。 兩種功能相互補充。
人工智能的數據支持
前面提到的算法和計算能力需要大數據量的支持。 數據是算法和計算能力價值的重要體現。
以下兩張圖片分別顯示了2005年和2013年的教皇觀眾。 隨著移動互聯網的發展,數據呈指數級增長,大量可用數據改善了深度學習的性能。
1998年,小型MNIST系統的訓練數據僅為10 MB,2009年ImageNet的訓練數據為200 GB,2017年WebVision具有3 TB數據集,典型產品的視覺系統需要1 PB數據。 大量的數據已幫助阿里巴巴幾乎線性地提高了其性能。
讓我們看一個我們都熟悉的常見場景,以說明更大的數據量如何提高性能。 在X射線醫學診斷領域,研究表明,醫生從X射線圖像診斷疾病的能力與他們所查看的X射線圖像的數量直接相關。 他們檢查的圖像越多,診斷準確性就越高。 類似地,可以通過大型計算機系統在更多數據上訓練當前的醫療引擎系統,以實現更準確的醫療診斷。
AI使大數據更智能
下圖顯示了大數據領域的趨勢。 當前,大數據領域希望提取更多信息,實現實時計算,AI平臺并執行在線預測。 所有這些趨勢表明,大數據的智能不斷提高。
當前,從多個數據源獲取不同類型的數據,包括結構化,半結構化和非結構化數據,并將其存儲在數據倉庫中。 為了利用這些數據的潛在價值,需要智能計算。 在廣告推薦的情況下,數據源是用戶在淘寶上的點擊,瀏覽和購買。 數據通過脫機或實時同步以及脫機或實時提取-轉換-加載(ETL)寫入數據倉庫。 然后,基于數據倉庫或數據湖解決方案生成并訓練各種數據模型。 最后,訓練結果通過數據服務輸出。 如您所見,數據理解和使用過程變得越來越智能。
幾年前,混合事務/分析處理(HTAP)包括OLTP和OLAP。 OLAP可以進一步分為大數據,離線和實時分析。 不同的引擎適用于具有不同數據量的案例。 當前,數據服務變得越來越重要。 在某些智能客戶服務場景中,實時AI推理服務和應用程序需要數據提取模型。 因此,找到一種將分析與服務結合起來的方法至關重要。 這就是為什么我們目前正在追求混合服務和分析處理(HSAP)的原因。 結合AI,我們可以通過離線和實時數據倉庫從數據中提取見解,并通過在線服務將此類見解呈現給用戶。
阿里巴巴已經在自己的應用程序中開發了基于人工智能的大數據方法和解決方案。 Double 11 Shopping Festival中的離線計算(批處理),實時計算(流計算),交互式分析和圖形計算方案已與Apsara AI平臺相結合,提供了由Apsara支持的新一代Apsara大數據產品 AI。
與人工智能類似,大數據也注重性能。 根據TPC基準測試,2019年,阿里云的大數據平臺MaxCompute和E-MapReduce在計算性能和成本效益方面顯示出顯著優勢。 下圖顯示了基準測試結果。
阿里巴巴的AlimeBot目前通過應用基于AI的深度學習和智能感知技術,在用戶服務場景中為用戶提供智能語音交互服務。 為了實現智能性能,它必須與大數據業務系統緊密聯系,例如物流或用戶數據系統。
這使我們想到了下一個問題:企業應如何接受AI? 簡而言之,要使AI成為現實,我們應該從應用程序需求出發,逐步進行技術創新,就像愛迪生如何改進電燈泡一樣。 云提供了低成本,高性能和高穩定性的基礎架構,但是對我們而言,關鍵是明確定義我們的需求。
在過去的幾年中,AI領域一直致力于算法創新和演示,但這還遠遠不夠。
AI算法只是系統的一部分。 在實施AI時,企業還必須考慮如何收集數據,獲得有用的功能以及執行驗證,流程管理和資源管理。
人工智能不是萬能的,但也不能忽略。 當企業采用AI時,必須首先從業務考慮出發。 隨著數據量和算法數量的增加,建立一支了解業務的數據工程師和算法工程師團隊至關重要。 這是智能企業成功的關鍵。 我們已經提到的所有算法,計算能力和數據解決方案都可以通過使用云中當前可用的服務和解決方案來實現。 這可以幫助企業更快地實施AI。
評論
查看更多