2021 年,虛擬世界和網絡游戲成為熱門話題,Facebook 將公司改名為“Meta”,使得元宇宙一度破圈,互聯網企業紛紛入局。為了保護隱私,醫療行業、電信以及金融業開始利用 synthetic data(合成數據),為數據共享提供更多的機會。
在較為低迷的投融資大環境下,全球投資者對于 AI 的關注度有增不減。2021 年,全球 AI 初創企業融資破紀錄達到 668 億美元,是 2020 年融資總額的兩倍之多。2022 年 Q1 相較于 2021 年 Q4 融資額下降了12%,但仍低于同期全球風險投資整體下降幅度。
新的一年,人工智能會朝著什么方向發展?CB Insights 提出了 2022 年值得關注的七大 AI 趨勢。
合成數據,保護隱私
目前,由于 AI 技術呈指數級發展,變得更加先進,但其局限性仍然存在。例如,某些行業缺乏足夠的真實數據來訓練 AI 模型,又或者合規隱私成為一些行業技術發展的痛點。
企業紛紛開始部署 Synthetic data (合成數據),即由計算機人工生成的數據,可用于替代自現實世界中采集的真實數據集。
雖然有人質疑合成數據模擬真實數據的準確性,但仍有一些大公司將賭注押在了這項技術上。
illumina 正在使用由創業公司 Gretel 開發的合成基因數據進行醫學研究。在一項聯合研究中,兩家公司均強調了,取得患者的知情同意權等舉措限制了部分醫學研究的速度和規模。Gretel 便使用真實的基因型和表型數據進行 AI 算法訓練,生成人工基因組合成數據。
在金融領域,J.P. Morgan 正在利用合成數據訓練金融 AI 模型。而在電信行業,由于無法獲得客戶同意,預計高達 85% 的真實客戶數據無法獲取,這給行為分析和預測造成了極大障礙。西班牙電信公司 Telefónica 與 Most AI 合作,模擬真實客戶數據的統計模式,創建 GDPR 合規的客戶合成數據檔案。
現階段,基于 GANs 的圖像合成技術和視頻合成技術發展迅猛,但高效且可行的表格數據合成技術仍處于初級階段。整體來看,數據匿名化、隱私合規和糾正算法偏見等優勢使得合成數據技術成為吸引各行業公司的關鍵要素。
芯片追逐戰
隨著 AI 技術不斷進步,加速在各行業落地應用。無論是云數據中心還是像照相機這樣的智能邊緣設備,適用于計算密集型的專業硬件需求激增。
Nvidia(英偉達)的圖形處理器曾一度主導著價值 670 億美元的 AI 芯片市場,如今多家公司相繼入局。
谷歌最新推出的 Pixel 手機搭載了自研的 Tensor 處理器,強化了軟件應用,而Amazon(亞馬遜)也在 2021 年 Q4 推出了自研芯片 Graviton3。
除了這幾家大公司外,一些初創企業也紛紛殺入。曾聲稱造出世界最大芯片的明星創企 Cerebras Systems 在 2021 年 Q4 融資 2.5 億美元,估值達到 40 億美元。
圖 | 截至 2022 年 5 月 13 日,融資前十的全球 AI 芯片供應商(來源:CB Insights)
由于空間和能源的限制,大型芯片并不適用于許多日常的 AI 應用場景。考慮到這一點,越來越多的公司開始研發可以用于汽車傳感器、照相機、自動化工廠機器人等低功耗設備的 AI 芯片。
On-device AI processing(端側 AI)能夠實現低延遲以及數據隱私的保護。Mythic、Syntiant 和 Kneron 等初創公司分別籌集了超過 1 億美元研發該項技術。
像 Untether AI 和 HOUMO.AI(后摩智能)這樣的初創公司正致力于研發“in-memory computing”(存內計算)技術。與傳統方法相比,存內計算把計算和存儲合二為一實現高度集成,能夠大幅度提升性能。Samsung 公司報告稱,采用存內計算技術后,語音識別神經網絡的速度提高了一倍以上,資源消耗削減了一半。
AI 芯片獨角獸公司 Graphcore 采用3D 封裝技術極大提高了性能。3D封裝技術,簡單來說,就是指在不改變封裝體尺寸的前提下,在同一個封裝體內,在垂直方向上疊放兩個或者更多芯片的技術。
其他公司則拋棄了傳統 AI 芯片,轉而使用光子芯片,即利用光而不是電信號來傳輸數據。光子學最大的優勢是速度,與依靠電纜傳輸的電子相比,光可以以更快的速度、更大的帶寬和更少的能量傳輸信息。隨著人們對 AI 工具的需求呈指數級增長,光子學有望成為破除 AI 硬件局限性的方法。
多年來,研究人員一直在研發通用性光子芯片。像 Lightmatter 和 Luminous Computing 等初創公司都希望構建更快、更節能的芯片,支持機器學習以及能夠處理繁瑣算法的“AI 超級計算機”。
新的技術層出不窮,新一代芯片在提高性能的同時降低功耗。展望未來,像量子機器學習這樣的前沿科技將不斷改變 AI 發展的面貌。
AI 賦能內容審核
在美國,玩電子游戲的人數達到了史上前所未有的最高水平。76% 的 18 歲以下的青少年沉迷于電子游戲,這讓家長們擔心孩子們極有可能接觸到不合時宜或者充滿仇恨的信息。
處理網絡仇恨言論是一個老生常談的問題。據悉,在 2016 年至 2021 年間,Meta 花費了 130 億美元用于內容審查,而 TikTok 聲稱在 2020 年有近萬人從事內容審查工作。TikTok 和 Meta 都曾被內容管理員起訴,因為他們在圖文審查工作中遭受了心理創傷。
隨著元宇宙的火熱以及網絡游戲生態系統的迅速發展,有害信息已經從社交媒體蔓延到新的陣地,即網絡游戲和虛擬世界。
網絡游戲環境惡劣,充斥著各種仇恨言論、網絡霸凌以及故意退出。反誹謗聯盟的一項研究發現,在比較受歡迎的多人游戲中,高達 80% 的玩家都曾受到騷擾。
一些初創公司正著眼于利用 AI 技術進行內容審核。Spectrum Labs 稱,其 NLP 平臺可以將音頻和文本的內容審核工作減少 50% ,有害信息檢測能力提高 10 倍。
美國初創公司 GGWP 通過 AI 監控聊天記錄和游戲數據來打擊游戲中的有害行為。此前,這家初創公司已經籌集了 1200 萬美元的種子資金,投資者包括 BITKRAFT Esport Ventures、Sony Innovation Fund(索尼創新基金)和 Riot Games。
2021 年 4 月,美國 Hive 公司募集了 5000萬美元的 D 輪融資,估值達到 20 億美元。Hive 公司成立于 2013 年,是一個專注于 AI 培訓數據的智能眾包平臺,提供自動內容審核服務,幫助像 HighRise 和 Naver Z 這樣的元宇宙公司解決玩家發表的仇恨言論、網絡欺凌等問題。
為了提高審核能力,大型科技公司收購了一些 AI 初創公司。例如,2021 年 10 月,微軟收購了 AI 內容審核服務公司 Two Hat,該公司的客戶包括 Roblox、 Epic Games 和微軟旗下的 Minecraft。
利用 AI 技術實現完美的內容審核是不可能的。在線用戶能夠不斷適應審查規則,逃避平臺的審查。但是,在 NLP 和基于深度學習的圖像分類等關鍵領域取得的突破,以及以內容審查為業務方向的 AI 初創企業獲得多輪融資,在一定程度上表明了 AI 審核將成為未來的方向之一。
Deepfakes檢測
Deepfakes(深度偽造)不僅能創造出極其逼真的圖像,還能生成“假”聲音和視頻。
利用 AI 學習算法,Deepfakes 的技術愈發精進,效果十分逼真。網絡上公開發布的視頻和錄音數量之多,容易獲取,這使得訓練 AI 算法和 Deepfakes 容易許多。研究人員表示,對于人們來說,區分 AI 偽造的人像、物體和視頻與真實情況十分困難。
2022 年,Deepfakes 在媒體上大量涌現,尤其是在政治領域。2022 年 3 月,《華爾街日報》報道了韓國總統大選候選人 Yoon Suk-yeol 利用 Deepfakes 技術改善自己在年輕選民中的公眾形象的新聞。這個名為“AI Yoon”的數字人看起來十分風趣幽默。
Deepfakes 衍生出的假新聞和假消息是一個大問題。對于消費者來說。Deepfakes 還有可能成為網絡釣魚和勒索詐騙的工具。
微軟認為,AI 防御體系無法完全打擊 Deepfakes 生成的假冒產品,于是推出了 Project Origin(起源項目),允許出版商使用防篡改元數據對媒體進行認證的服務。
美國加州的一家創業公司 Truepic 使用加密和區塊鏈技術打造圖像視頻真實驗證平臺。Truepic 一直在與高通公司合作,為高通公司應用芯片組的智能手機拍攝的照片加上水印。去年 Truepic 獲得 Adobe、微軟 M12、Sony Innovation Fund(索尼創新基金)等 2700 萬美元的融資。
為了應對日益增長的網絡安全威脅,一些科技公司開始嘗試各種解決方案,包括設備端認證軟件和 API、區塊鏈等。去年,Meta 的研究人員聲稱他們不僅可以確定圖像是否是偽造的,還可以剖析用于深度偽造的 AI 模型。但是 Deepfakes 技術還將持續演進、無處不在,人們需要尋找新的方法將其摧毀。
低代碼/零代碼開發
算法能將自然語言命令翻譯成計算機代碼,特別是對公民開發者來說,這意味著軟件開發新一股的浪潮。
2021 年 6 月,GitHub(2018 年該公司被微軟收購)和 OpenAI(微軟持有其10 億美元的少數股權)聯合推出了 Copilot。Copilot 最大的一個功能就是可以將英語注釋轉換為代碼。
微軟并不是唯一一家涉獵該領域的科技巨頭。2022 年 2 月,谷歌 DeepMind 發布了新的編程系統 AlphaCode,作為讓其 AI 世界的代表競逐編程比賽。在通過 Codeforces 平臺上的編程競賽后,DeepMind 表示其 AI 的表現已到達中等水平。
初創公司則更關注軟件測試:自動化質量檢查和代碼單元測試。其中包括,得到 CRV 和 Google Ventures 融資的 Mabl、獲 Salesforce Ventures 融資的 Autify、2022 年 Q1 獲 1000 萬 B 輪融資以及牛津大學的衍生公司 Diffblue。
自動編程仍處于初級階段。但該領域技術進步促使一些初創公司不斷拓展零代碼/低代碼解決方案,讓非技術用戶能夠參與數據科學項目,縮小技能差距,并加快生產周期。
多模態 AI 崛起
多模態 AI 正在打破單一感官的藩籬,使用一個通用 AI 模型科技將多種類型的數據所蘊含的語義信息概念化并作出預測。
在 2021 年初,OpenAI 發布了可以根據文本信息生成圖像的 AI 模型 DALL-E。
圖 | AI 根據文本提示生成牛油果形狀的扶手椅(來源:Open AI)
2022 年 1 月,OpenAI 發布了升級版 DALLE-2,生成圖像的畫質提升了 4 倍。
2022 年 5 月,谷歌推出了圖像生成器 Imagen。據稱,Imagen 在生成圖像的質量以及輸入文本和生成的圖像的一致性方面要優于 OpenAI 模型。
今年早些時候,Meta 發表了一篇名為 “不同視覺模態都能通吃的雜食者”的論文,其中詳細介紹了如果對一種 AI 模型進行識別 2D 圖像的預訓練,不經過額外的模態訓練,該模型也能可以識別視頻或三維圖像中的南瓜。
多模態 AI 正在從實驗室走到實際應用。例如,谷歌正在使用多模態 AI 來改進搜索體驗。未來,如果用戶上傳了一張登山靴的照片,并附上“我能穿著這雙靴子去富士山徒步旅行嗎?”的文字,搜索引擎將識別上傳的圖像,從文本、圖像和視頻數據中挖掘網絡上關于富士山的信息,并將這些瑣碎的信息連接起來,提供一個貼切的答案。
多模態 AI 正在走出實驗室,為搜索服務和內容生成等應用提供驅動力。
AI for AI
隨著 AI 技術應用延展,企業正在尋求徹底改變現有的數據管理模式的解決方案,轉向“AI 優先”策略。
說起來容易做起來難。從采集數據、運行數據質量檢查到開發模型和監測后期生產表現,一個項目從原始數據轉變為生產準備是一個多步驟的過程。
市場上涌現出數以百計的公司研發各階段的解決方案。
端到端的機器學習公司將 AI 生命周期管理過程中的多步驟融合成一個 SaaS 產品,這將為那些希望快速高效構建 AI 系統的企業提供絕佳選擇。
2021 年 5 月,谷歌發布了端到端開發平臺 Vertex AI,該公司稱 Vertex AI 能為沒有機器學習經驗的數據科學團隊提供一站式服務。
DataRobot 是一家市值 63 億美元的公司,多年來通過并購積極擴大產品規模。去年,DataRobot 進行了 3 筆收購,擴大市場份額。
無代碼和低代碼趨勢也擴展至機器學習平臺,以彌合 AI 技能差距,plug-and-play(即插即用)的功能激勵非專家人員參與到 AI 項目中。為此,2021 年,全球第二高估值 AI 獨角獸公司 Databricks 收購了低程序代碼工具供應商 8080 Labs。
隨著大多數老牌廠商開始布局 Auto ML(自動機器學習)功能,“AI for AI”也成為增長的領域。企業開始使用 AI 技術將 AI 開發過程的各環節自動化,如數據質量檢查或部分模型開發環節。
持續分化,未來已來,“AI for AI”將迎來更廣闊的發展空間。
審核編輯 黃昊宇
-
微軟
+關注
關注
4文章
6622瀏覽量
104269 -
AI
+關注
關注
87文章
31356瀏覽量
269758 -
人工智能
+關注
關注
1793文章
47559瀏覽量
239407 -
Meta
+關注
關注
0文章
277瀏覽量
11414
發布評論請先 登錄
相關推薦
評論