好看的玄幻小说,管理书籍排行榜,豆豆小说阅读网

江湖三十年鏖戰(zhàn)，AI 即出，多方勢(shì)力涌入讓這個(gè)世界重新異彩紛呈，也經(jīng)歷了新一輪洗牌。

在這場(chǎng)戰(zhàn)役中留下姓名的企業(yè)，皆因技術(shù)、產(chǎn)品、服務(wù)等硬實(shí)力，成為了行業(yè)中的佼佼者。

在同樣起跑線，有些企業(yè)總是能獨(dú)占鰲頭，以不卑不亢的姿態(tài)，成為“別人家的孩子”。

AI 獨(dú)角獸依圖也是這樣一位“別人家的孩子”。

最近，在國際權(quán)威機(jī)構(gòu) ACM MM（ACM MM’20 Grand Challenge）主辦的“大規(guī)模復(fù)雜場(chǎng)景下人體視頻解析”挑戰(zhàn)賽（Large-scale Human-centric Video Analysis in Complex Events）的核心賽道——行為識(shí)別中，依圖科技再奪一冠。

ACM MM 被認(rèn)為是多媒體技術(shù)領(lǐng)域奧運(yùn)級(jí)別的頂級(jí)盛會(huì)，也是中國計(jì)算機(jī)學(xué)會(huì)（CCF）認(rèn)證和多媒體研究領(lǐng)域評(píng)級(jí)中唯一的 A 類國際頂級(jí)會(huì)議。此次挑戰(zhàn)賽集結(jié)了國內(nèi)外約 100 支參賽隊(duì)伍，包括亞馬遜、大華、騰訊、中山大學(xué)等知名企業(yè)和院校。

同時(shí)，此次競(jìng)賽是該方向最接近真實(shí)場(chǎng)景的大規(guī)模挑戰(zhàn)賽，主要基于各類人群和復(fù)雜事件（如地震逃生、食堂用餐、下火車等）來分析人的行為，包括多人追蹤、姿態(tài)估計(jì)、姿態(tài)追蹤、行為識(shí)別等四大任務(wù)；目的在于考察算法在復(fù)雜場(chǎng)景下對(duì)人體的解析能力,鼓勵(lì)研究者在以人為中心的分析中解決非常具有挑戰(zhàn)性和現(xiàn)實(shí)的問題。

更為關(guān)鍵的一點(diǎn)是，與其他舉辦過多次的國際競(jìng)賽不同，作為首屆競(jìng)賽，參賽隊(duì)伍在賽前無法了解識(shí)別的類別、數(shù)據(jù)集的大小和識(shí)別的具體需求，也就是說,對(duì)即將面對(duì)的行為類別、數(shù)據(jù)模型、比賽需求一無所知，這意味著沒有經(jīng)驗(yàn)可借鑒，沒有路徑可學(xué)習(xí)。依圖是如何在短短兩個(gè)月的挑戰(zhàn)時(shí)間內(nèi)，實(shí)現(xiàn)最優(yōu)的算法性能，拿下世界第一？

挑戰(zhàn)不可能

顧名思義，大規(guī)模復(fù)雜場(chǎng)景挑戰(zhàn)賽必然需要大規(guī)模和復(fù)雜場(chǎng)景。大規(guī)模即豐富的場(chǎng)景、大額的數(shù)據(jù)量（一般情況下，100 萬以上的數(shù)據(jù)量在學(xué)術(shù)界會(huì)被稱為大規(guī)模）。

作為首屆比賽，HiEve 數(shù)據(jù)集標(biāo)注超 100 萬個(gè)，內(nèi)容以真實(shí)視頻場(chǎng)景為主，囊括了當(dāng)前姿態(tài)數(shù)量最多的數(shù)據(jù)集。其中,有超 56000 個(gè)復(fù)雜事件下的人體行為，包括但不限于排隊(duì)、打架、俯身、同行、跑動(dòng)等；平均軌跡長度超過 480，是軌跡數(shù)量最多的數(shù)據(jù)集之一。

結(jié)合到比賽的具體任務(wù)而言，行為識(shí)別，簡單場(chǎng)景指的是一個(gè)視頻里只分析一個(gè)行為的主體；復(fù)雜場(chǎng)景指的是視頻里有多個(gè)人，在密集、擁擠的場(chǎng)景下，分析的行為還需要包含人和人之間的互動(dòng)。

1）數(shù)據(jù)量大，但有效數(shù)據(jù)少

比賽中，考察的行為種類非常多，且每種行為可以有多種表達(dá)方式，例如出拳、拉扯、扇巴掌等都屬于打架，而訓(xùn)練集很難覆蓋所有可能的組合。

雖然數(shù)據(jù)總量達(dá)到 100 萬，但由于視頻數(shù)據(jù)幀之間的相似性很高,包含了大量冗余數(shù)據(jù)。這些數(shù)據(jù)對(duì)算法提升泛化性的作用有限。如果去除這些極為相似的連續(xù)幀冗余數(shù)據(jù)，整個(gè)訓(xùn)練數(shù)據(jù)中的數(shù)據(jù)也只有幾萬個(gè)，僅僅覆蓋 20 個(gè)左右的視頻場(chǎng)景。這意味著有效的數(shù)據(jù)且測(cè)試分布一致的數(shù)據(jù)量并不多, 極大的增加了泛化難度。

換句話說，在訓(xùn)練過程中，大量測(cè)試的場(chǎng)景，并沒有被算法系統(tǒng)直接學(xué)習(xí)過。這就需要算法具備強(qiáng)大的泛化性能，讓算法學(xué)會(huì)“舉一反三”

2）場(chǎng)景復(fù)雜

此外，場(chǎng)景的復(fù)雜性無法一言以概。例如，攝像頭的拍攝質(zhì)量(清晰、抖動(dòng)、模糊、扭曲)不一, 不同場(chǎng)景的布局不同 (例如：商場(chǎng)、走廊、馬路、大廳、餐廳、公園等), 場(chǎng)景光線受到室內(nèi)、室外、晴天、陰天的影響也比較大；甚至還存在攝像頭俯拍、平拍、斜拍各個(gè)角度的差異、人體框的大小和遠(yuǎn)近不同、乃至人之間(人與物之間)還會(huì)經(jīng)常發(fā)生相互遮擋。

解決了算法的泛化能力問題，克服了場(chǎng)景的復(fù)雜性，還有其他待解難題。

3）行為差異大

要知道，實(shí)際中行為分析是非常復(fù)雜的。即使是同一類行為，在不同時(shí)刻、不同場(chǎng)景也具有很大差異性。比如不同的人在不同時(shí)刻行走，速度、姿態(tài)和場(chǎng)景遮擋都會(huì)不同。或者同一行為具有多種不同的表現(xiàn)形式，比如單“打架”一個(gè)行為，可能包含踢人、扇耳光、拉扯等不同形式。

在多人場(chǎng)景甚至是密集場(chǎng)景下，除了要準(zhǔn)確識(shí)別個(gè)人行為，還要標(biāo)出人與人之間的互動(dòng)，需要對(duì)每個(gè)人，在任何一個(gè)時(shí)間點(diǎn)上，給出此刻的行為判斷。

4）連續(xù)動(dòng)作和長時(shí)間動(dòng)作捕捉難

通俗的說，讀懂一個(gè)動(dòng)作，需要長期、連續(xù)跟進(jìn)，還需要結(jié)合上下文，才能做“閱讀理解”。這就需要同時(shí)具備時(shí)間和空間的感知能力，準(zhǔn)確的捕捉到人在前幾秒每幀的動(dòng)作, 并集合時(shí)間上動(dòng)作發(fā)生的變化推測(cè)出行為。

以“揮拳”為例，整個(gè)過程經(jīng)歷了開始的靠近階段、揮動(dòng)拳腳的高潮階段以及結(jié)束階段。只有結(jié)合了人體每個(gè)時(shí)刻的姿態(tài)，才能更準(zhǔn)確地判別出動(dòng)作。

更重要的是，需要在短短兩個(gè)月的時(shí)間內(nèi)解決以上問題并奪冠，做到世界第一，沒有極其深厚的技術(shù)積累、行業(yè)經(jīng)驗(yàn)以及快速解決問題的能力，難之又難。

算法“鑿山”，算力“開路”，解鎖智能未來

當(dāng)然，也有一些業(yè)界人士毫不諱言：相較于人臉領(lǐng)域這種算法流程已經(jīng)相對(duì)確定、算法框架的技術(shù)水準(zhǔn)也趨于穩(wěn)定的成熟領(lǐng)域而言，行為識(shí)別，尤其是人的行為識(shí)別，還處于學(xué)術(shù)界的摸索階段，正因如此，很可能成為 AI 界的下一掘金地。

學(xué)術(shù)界的探索意味著沒有多少前人指路，依圖能在囊括如此復(fù)雜難題的行為識(shí)別賽道奪冠，并非偶然，除了對(duì)場(chǎng)景的深度理解、創(chuàng)新融合，還有硬實(shí)力的支撐。

學(xué)術(shù)界常用 frame mAP (f-mAP@avg)來作為行為識(shí)別的評(píng)價(jià)指標(biāo)，f-mAP@avg 代表的含義是以關(guān)鍵幀為單位，評(píng)判行為的位置與分類是否準(zhǔn)確；與學(xué)術(shù)界對(duì)行為識(shí)別的考察指標(biāo)不同，此次競(jìng)賽的評(píng)價(jià)標(biāo)準(zhǔn)是 wf-mAP@avg，這意味著更注重對(duì)難度較大的擁擠場(chǎng)景的考察，以及比較少見的動(dòng)作的識(shí)別，同時(shí)對(duì)于人體框的定位的精確性要求也更高。

在短短兩個(gè)月的挑戰(zhàn)時(shí)間內(nèi)，依圖算法的指標(biāo)達(dá)到了 wf-mAP@avg0.26，將以往學(xué)術(shù)界中的基準(zhǔn)算法提升了近 3 倍。

掘金不易，鑿山開路更不易。何況視頻相較于圖像的行為識(shí)別更加復(fù)雜，如何建模、視頻幀之間的相關(guān)性仍是學(xué)術(shù)界一直存在的難題。

依圖深諳這一點(diǎn)，優(yōu)化算法來“鑿山”。

研發(fā)團(tuán)隊(duì)透露，當(dāng)應(yīng)用場(chǎng)景明確后，在已知分析的對(duì)象是人體且明確知道要識(shí)別的類別后，就可以針對(duì)性的進(jìn)行算法優(yōu)化，通過算法定制化來提升算法性能，解決以往不能很好解決的問題。

此外，依圖還創(chuàng)新性地將算法與場(chǎng)景進(jìn)行了深度結(jié)合——一方面創(chuàng)新性的從視頻中自動(dòng)提取到豐富準(zhǔn)確的場(chǎng)景信息，結(jié)合先進(jìn)的行人檢測(cè)、行人重識(shí)別算法，全面構(gòu)建了人與人、人與場(chǎng)景、人與物之間在視頻中的關(guān)系；另一方面，借助長期在智能城市場(chǎng)景下的算法積淀和對(duì)行業(yè)場(chǎng)景的理解，從需求出發(fā)，對(duì)比賽中要求的特定的 14 類任務(wù)進(jìn)行了深度算法優(yōu)化。

與其他隊(duì)伍追求復(fù)雜的多模態(tài)融合策略不同，依圖在此次競(jìng)賽中竟然是用單模型奪冠。也就是說，他們借助背景提取和分割算法，將行為的解析與場(chǎng)景結(jié)合，大大降低了問題難度。

敢在比賽中用單模型與其他多模型融合策略 PK，不外乎自信中帶著點(diǎn)跟自己較真的狠勁，又一次展現(xiàn)了在有限的時(shí)間內(nèi)依圖算法可以做到極致。

算法“鑿山”的依圖，在開拓 AI 新領(lǐng)域的版圖上一直策馬長驅(qū)，離不開算力的“開路”。

此前，依圖科技自主研發(fā)的全球首款云端視覺智能芯片求索（questcore?），可以提供強(qiáng)大算力，單路攝像頭功耗不到 1W，開啟了算法設(shè)計(jì)與芯片設(shè)計(jì)相結(jié)合的時(shí)代。

集合了高性能 AI 算法和芯片耦合設(shè)計(jì)優(yōu)化的芯片平臺(tái)，結(jié)合世界領(lǐng)先的行為識(shí)別算法的依圖，將更有利于賦能智能城市、安全生產(chǎn)、智能商業(yè)等領(lǐng)域，打造新一代 AI 基礎(chǔ)設(shè)施。

細(xì)觀依圖半年來的動(dòng)態(tài)，在疫情爆發(fā)初期快速研發(fā)出業(yè)界首個(gè)新冠肺炎輔助診斷系統(tǒng)并投入全國的醫(yī)院，同時(shí)，頻頻刷新頂級(jí)賽事的世界紀(jì)錄，分別在貴陽和福州落地千萬量級(jí)規(guī)模的城市級(jí)人工智能應(yīng)用、通過全球權(quán)威隱私認(rèn)證管理國際認(rèn)證，發(fā)布語音超級(jí)本、入選工信部知識(shí)圖譜案例集……技術(shù)愈加成熟、落地經(jīng)驗(yàn)愈加豐富。

這些會(huì)給未來帶來什么？借用依圖科技創(chuàng)始人朱瓏近期在《人民日?qǐng)?bào)》署名文章中所說：未來 10 年，低階感知智能將向高階決策智能躍遷；人工智能將向具有高度不確定性、多任務(wù)融合、復(fù)雜推理等特點(diǎn)的高階智能突破，有望實(shí)現(xiàn)看、聽、理解、規(guī)劃和控制等能力的重大躍升。

編輯：hfy

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

算法

算法

+關(guān)注

關(guān)注
23

文章
4615

瀏覽量
93025
AI

AI

+關(guān)注

關(guān)注
87

文章
31028

瀏覽量
269381
依圖科技

依圖科技

+關(guān)注

關(guān)注
0

文章
50

瀏覽量
9827

評(píng)論

相關(guān)推薦

人臉識(shí)別之智能行為檢測(cè)技術(shù)

運(yùn)用非常多。在家居、小區(qū)、教育、門店、交通、公安等許多地方都可以涉及到。我今天主要給大家講的就是人臉識(shí)別的智能行為檢測(cè)技術(shù)。行為就是比如你走路、腳步邁開就是一個(gè)

發(fā)表于 07-07 13:30

基于深度圖形與骨骼數(shù)據(jù)的多特征行為識(shí)別方法

處理。隨著圖像技術(shù)與硬件的發(fā)展，利用微軟Kinect或華碩Xtion等設(shè)備，學(xué)者可以實(shí)時(shí)獲取人體的深度圖像信息。與傳統(tǒng)的圖像相比，深度圖像不受光照影響，能夠提供三維空間信息。利用深度圖

發(fā)表于 12-09 11:47 ?0次下載

基于<b class='flag-5'>深度</b>圖形與骨骼數(shù)據(jù)的多特征<b class='flag-5'>行為</b><b class='flag-5'>識(shí)別</b>方法

深度解析人臉識(shí)別技術(shù)

人臉識(shí)別是AI技術(shù)發(fā)展較快、應(yīng)用較多的一個(gè)領(lǐng)域，目前國內(nèi)人臉識(shí)別應(yīng)用已相當(dāng)廣泛，并積累了不少實(shí)戰(zhàn)經(jīng)驗(yàn)。

發(fā)表于 08-26 10:11 ?1.2w次閱讀

<b class='flag-5'>深度</b><b class='flag-5'>解析</b>人臉<b class='flag-5'>識(shí)別</b><b class='flag-5'>技術(shù)</b>

依圖率先入局，AI算法獨(dú)角獸為什么要做芯片？

月時(shí)估值達(dá)到150億人民幣，在原有的圖像識(shí)別之外，依圖也在積極布局語音識(shí)別與自然語言處理技術(shù)，目前依

發(fā)表于 07-02 17:14 ?896次閱讀

又一人工智能企業(yè)叫板英偉達(dá)，依圖推云端AI芯片

又一人工智能企業(yè)叫板英偉達(dá)，依圖推云端AI芯片，人工智能公司依圖科技發(fā)布云端視覺推理AI芯片qu

發(fā)表于 07-02 17:05 ?539次閱讀

依圖AI芯片來了:算法=芯片

今天，依圖科技在上海召開發(fā)布會(huì)，推出首款云端芯片“求索”和依圖原子系列云端服務(wù)器、依圖前沿系列邊

發(fā)表于 05-15 17:42 ?5217次閱讀

技術(shù) | 基于深度學(xué)習(xí)圖像識(shí)別的變電站監(jiān)控系統(tǒng)

基于計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)以及無線通信技術(shù)和視頻監(jiān)控技術(shù)，研究深度學(xué)習(xí)圖像識(shí)別的變電站基建安全行為監(jiān)控系

發(fā)表于 07-22 08:29 ?5408次閱讀

語音識(shí)別的技術(shù)歷程

深度學(xué)習(xí)技術(shù)自 2009 年興起之后，已經(jīng)取得了長足進(jìn)步。語音識(shí)別的精度和速度取決于實(shí)際應(yīng)用環(huán)境，但在安靜環(huán)境、標(biāo)準(zhǔn)口音、常見詞匯場(chǎng)景下的語音識(shí)別率已經(jīng)超過 95%，意味著具備了與人類

發(fā)表于 08-22 14:21 ?4491次閱讀

依圖聲紋識(shí)別新突破，未來語音技術(shù)將更加智能

在國際知名聲紋識(shí)別挑戰(zhàn)賽VoxCeleb Speaker Recognition Challenge上,依圖以顯著優(yōu)勢(shì)刷新世界紀(jì)錄,中國AI再次世界爭(zhēng)光。

發(fā)表于 11-15 10:23 ?1495次閱讀

AI行為識(shí)別分析技術(shù)在智慧養(yǎng)老行業(yè)的應(yīng)用

AI行為識(shí)別分析技術(shù)，是一款基于AI神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)算法，通過實(shí)時(shí)分析視頻流，從視頻流中勾勒出

發(fā)表于 05-13 15:53 ?1.1w次閱讀

基于深度學(xué)習(xí)的行為識(shí)別算法及其應(yīng)用

基于深度學(xué)習(xí)的行為識(shí)別算法及其應(yīng)用

發(fā)表于 06-16 14:56 ?20次下載

深度解析多模態(tài)數(shù)據(jù)行為識(shí)別技術(shù)的研究發(fā)展

行為識(shí)別在一些數(shù)據(jù)集上的識(shí)別率已經(jīng)很高，在日常生活中也有一些應(yīng)用。但是行為識(shí)別仍然存在許多挑戰(zhàn)。

發(fā)表于 12-19 17:43 ?2033次閱讀

AI視覺識(shí)別有哪些工業(yè)應(yīng)用

AI視覺識(shí)別涵蓋多種應(yīng)用，如人臉識(shí)別、目標(biāo)檢測(cè)和識(shí)別、圖像分割、行為識(shí)別、視頻分析等。本篇就簡單

發(fā)表于 11-27 18:05 ?1240次閱讀

AI行為識(shí)別視頻監(jiān)控系統(tǒng) Python

AI行為識(shí)別視頻監(jiān)控系統(tǒng)來自機(jī)器視覺技術(shù)的革新。機(jī)器視覺技術(shù)應(yīng)用是人工智能技術(shù)分析的一個(gè)支系。它

發(fā)表于 07-06 10:36 ?553次閱讀

AI行為識(shí)別攝像機(jī)

隨著科技的飛速發(fā)展，人工智能（AI）在各個(gè)領(lǐng)域的應(yīng)用越來越廣泛。在安全監(jiān)控領(lǐng)域，AI行為識(shí)別攝像機(jī)作為一種新興技術(shù)，正逐漸改變傳統(tǒng)監(jiān)控方式，

發(fā)表于 11-21 10:49 ?196次閱讀

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

深度解析依圖行為識(shí)別的AI技術(shù)

評(píng)論

人臉識(shí)別之智能行為檢測(cè)技術(shù)

基于深度圖形與骨骼數(shù)據(jù)的多特征行為識(shí)別方法

深度解析人臉識(shí)別技術(shù)

依圖率先入局，AI算法獨(dú)角獸為什么要做芯片？

又一人工智能企業(yè)叫板英偉達(dá)，依圖推云端AI芯片

依圖AI芯片來了:算法=芯片

技術(shù) | 基于深度學(xué)習(xí)圖像識(shí)別的變電站監(jiān)控系統(tǒng)

語音識(shí)別的技術(shù)歷程

依圖聲紋識(shí)別新突破，未來語音技術(shù)將更加智能

AI行為識(shí)別分析技術(shù)在智慧養(yǎng)老行業(yè)的應(yīng)用

基于深度學(xué)習(xí)的行為識(shí)別算法及其應(yīng)用

深度解析多模態(tài)數(shù)據(jù)行為識(shí)別技術(shù)的研究發(fā)展

AI視覺識(shí)別有哪些工業(yè)應(yīng)用

AI行為識(shí)別視頻監(jiān)控系統(tǒng) Python

AI行為識(shí)別攝像機(jī)