國際人工智能聯(lián)合會議(International Joint Conference on Artificial Intelligence,簡稱為IJCAI)是人工智能領域中最主要的學術會議之一,在會議上發(fā)表的學術成果在整個AI領域都有深遠的影響。IJCAI-PRICAI-20于2021年1月在日本舉行,但由于疫情原因,本次會議多次調整議程。日前,深蘭科技終于收到了姍姍來遲的榮譽,在NetML競賽獲得兩冠一季的好成績,尤其在AI視頻競賽中“深蘭AI智能掃路機”獲得Best Industrial Video最佳工業(yè)應用視頻獎。
昨日,作為指導委員會成員,上海市經濟和信息化委員會、中國智慧城市工作委員會、中國城市環(huán)境衛(wèi)生協(xié)會智能環(huán)衛(wèi)專業(yè)委員會、長三角產業(yè)發(fā)展研究院、AIII人工智能產業(yè)研究院和深蘭科技(排名不分先后),共同倡議發(fā)起新一代人工智能環(huán)衛(wèi)智能化產業(yè)聯(lián)盟,旨在進一步集聚智能環(huán)衛(wèi)領域專家學者和領跑企業(yè),聯(lián)合環(huán)衛(wèi)清潔領域的產、學、研、用、資和服等單位,創(chuàng)新突破關鍵核心技術,加速建設人工智能環(huán)衛(wèi)技術創(chuàng)新生態(tài)體系。深蘭科技作為其中的唯一的人工智能企業(yè),其冠軍團隊的技術實力,為環(huán)衛(wèi)智能化的推進再添砝碼!
最佳工業(yè)應用視頻獎
IJCAI-PRICAI20 AI視頻競賽作為國際會議競賽中不多見的形式,為研究人員和AI從業(yè)人員提供了一個展示平臺,以視頻的方式呈現(xiàn)易懂、有趣的人工智能,并體現(xiàn)其對社會的價值。參賽者的視頻在會議的展廳中循環(huán)播放,最終獎項由參會者投票和專業(yè)評委評定產生,可謂是眾望所歸。
視頻以深蘭AI智能掃路機的第一視角,以擬人的方式模擬環(huán)衛(wèi)工人一天的作息,以及在不同環(huán)境下的工作流程,巧妙地展示了機器人的自動檢測目標、躲避障礙、判斷交通信號、數(shù)據(jù)同步等能力,以及其背后的自動駕駛、數(shù)據(jù)管理等核心系統(tǒng)。視頻敘述清晰,畫面風格和配樂充滿科技感,引人入勝。短短4分鐘的視頻內容豐富,以講故事的形式讓人不知不覺中了解了產品的主要信息。
這款AI智能掃路機通過在實際交通狀況下的行駛,AI智能掃路機在停車、大轉、障礙物避讓等方面開展了多場景測試和優(yōu)化調整,已基本滿足了無人駕駛環(huán)衛(wèi)道路保潔的要求,目前已在上海、深圳、天津等多地投入運營。
NetML競賽獲兩冠一季
NetML競賽是由英特爾公司贊助,在IJCAI-PRICAI20上組織的一場基于機器學習的流量分析競賽。本次比賽借助IJCAI-PRICAI20參加者的專業(yè)知識,幫助網絡研究人員與ML / AI社區(qū)進行互動,促進網絡流量分析新方法的研究和開發(fā)。深蘭科技DeepBlueAI團隊在7個賽道中取得了兩冠一季的好成績。分別在Track2和Track4獲得冠軍,在Track5獲得季軍。
賽題介紹
隨著互聯(lián)網的發(fā)展,網絡流量日益增多,同時惡意流量也在不斷增加。如搶票軟件、明星打榜、惡意爬蟲等。為了探索更好的網絡流量的分析方法,在這場比賽中,主辦方NetML提供了3個不同的相關數(shù)據(jù)集(CICIDS2017,NetML,non-vpn2016),并且將label分成了3種不同的粒度,分別是top,mid 和 fine。top就是二分類區(qū)分正常流量與惡意流量;mid和fine 還需要對惡意流量進行進一步的分類。CICIDS2017數(shù)據(jù)集和NetML數(shù)據(jù)集沒有mid粒度,所以一共有7個任務對應7個賽道。
評測指標
對于多分類任務:
overall = F1*mAP 。其中,F(xiàn)1 是每個類的f1-score乘以每個類的樣本占比, mAP是所有類的平均準確率。
對于二分類任務:
overall = TPR*(1-FAR)。其中,TPR = TP/(TP+FN),F(xiàn)AR = FP/(TN+FP)。
賽題分析
三個數(shù)據(jù)集都是10w到50w行級別的數(shù)據(jù)量,62列特征,包含了發(fā)送接收地址與端口, 發(fā)送接收包大小,時間,hdr信息,pld統(tǒng)計信息,tls信息,http請求信息,dns信息等網絡信息。數(shù)據(jù)集之間的區(qū)別是收集源不一樣,二分類與多分類標簽不一樣。
經過分析,賽題有主要有以下難點:
數(shù)據(jù)處理。原始特征數(shù)量比較多而且類型復雜,包括很多類型是列表的列如dns的相關信息。如何從這類列表中提取特征是主要問題。
針對不同粒度的label提取特征。當前特征對top粒度二分類可能有用,但是區(qū)分不了剩下的多分類。
競賽方案
自動列表類型特征提?。河捎诹斜眍愋偷臄?shù)據(jù)是無法直接喂給模型的,所以我們對列表類型進行了聚合,從而提取了一些統(tǒng)計數(shù)值特征。
自動特征工程:由于原始數(shù)據(jù)特征數(shù)量較多,我們選擇自動特征工程進行處理,以實現(xiàn)短時間內有效信息的盡量提取,并節(jié)約人工成本。我們將原始特征主要分成了類別類和數(shù)值類,并在根據(jù)類型做出不同的特征。
特征選擇:經過上面兩步,我們做的特征已經超過一千列了,但其中大多數(shù)是無效特征。為了避免過擬合和加速模型訓練速度,我們使用了兩種特征選擇方法將特征減少到1/5。首先,我們通過lightgbm模型根據(jù)信息熵輸出的特征重要性把這些完全沒用的特征篩選出來;然后,我們選用第二種特征選擇的方法是label 重排列,使用它可以篩選出一些無效的特征。label 重排列方法的主要思想是,通過label的隨機打亂,并逐次學習,得到隨機狀態(tài)下重要性的分布,學習到哪些特征的重要性是“虛高”的。
指標優(yōu)化:預測完之后,我們發(fā)現(xiàn)每個類別的比例與原始數(shù)據(jù)類別比例差別較大,導致得分偏低,尤其是在多分類任務中。我們就通過后處理調整閾值的方式去調整每個類別的占比。
模型融合:我們分別使用了lightgbm,catboost,xgboost這些模型。采用加權平均的方法進行融合,權重由每個單模型的效果決定。
總結
DeepBlueAI團隊針對網絡流量分析任務,通過數(shù)據(jù)分析、自動列表類型特征提取,自動特征工程, 在經過特征選擇,指標優(yōu)化和模型融合等設計了一個網絡流量識別算法。該算法在本次比賽中取得了2冠1季的好成績,有望幫助互聯(lián)網識別出惡意流量,形成一個良好的網絡環(huán)境。
責任編輯:lq
-
機器人
+關注
關注
211文章
28575瀏覽量
207743 -
智能化
+關注
關注
15文章
4926瀏覽量
55561 -
人工智能
+關注
關注
1793文章
47532瀏覽量
239293
原文標題:賽道 | 世界冠軍加持環(huán)衛(wèi)智能化 深蘭獲IJCAI20兩冠一季+最佳工業(yè)應用視頻獎
文章出處:【微信號:kmdian,微信公眾號:深蘭科技】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論