未來安防智能化落地的三大方向:視頻結構化、生物識別技術、物體識別技術。
視頻結構化對數據進行追蹤和關聯的分析,從而做到事前預警;生物識別技術中的人臉、指紋、虹膜、聲紋識別將得到大規模應用;物體識別技術減輕各種成本,提升效率。
針對未來安防智能化落地方向,奧比中光高級戰略BD總監彭勛祿做客雷鋒網公開課,闡述了奧比中光的思考,并詳述了奧比中光關于3D視覺在智能安防領域應用落地的實踐與探索。
彭勛祿提到,安防產業每一階段的突破,都是由上游技術的革新引領,“看得到、看得遠、看得清、看得懂”四大要素也成為推動安防行業進步的主要驅動力。其中,感知作為AI三個階段之一,是實現智能化認知和決策的必經階段。
未來安防智能化,要實現“看得懂”這一目標,不僅僅需要依靠AI算法和AI芯片,還需著力提升圖像視頻類感知的深度和緯度。同時,AI技術對視頻成像的高要求成為安防智能化的痛點之一。
而3D將在主動光技術、空間三維數據、背景分離等方面帶來革新,其獨特的技術優勢或許能賦予安防新機遇。
以下為彭勛祿分享內容節選,進行了不改變原意的編輯。
安防行業發展趨勢
安防行業發展經過了幾個重要階段。
1979到1983年,安防行業形成以模擬攝像機+視頻矩陣+磁帶錄像機為產品矩陣的模擬階段;編解碼技術的出現實現了從模擬階段到數字階段的轉化,而數字化是網絡化和智能化的前提;1997年網絡攝像機的出現打破了傳統安防地域的邊界,安防行業通過網絡全面升級、傳感器芯片性能的提升和網絡基礎設施的高速發展而步入高清/超清時代; 2012年以后,國內互聯網公司涌入安防行業,人工智能技術進入快速落地階段,至此,安防行業進入智能化時代。
由此可見,安防產業每一個階段的突破,都是由上游技術帶來的革新引領;另外“看得到、看得遠、看得清、看得懂”這四大要素,成為推動安防行業進步的主要驅動力。
安防行業宏觀環境
智能安防的發展環境非常有利。
首先國家政策大力支持,十三五規劃、十九大報告等政策均在不斷強調數字城市、智慧城市、智慧安防監控系統的建設。
從市場潛力看,目前一二線城市的安防基礎設施布局已經日趨完善,未來會以更新升級為主。主力的安防市場會逐漸向二三四線城市下沉。
從技術看,AI技術從2012年進入安防行業,經過多年的發展,已經進入實戰化階段,人臉識別等AI技術在公安抓逃、社區治理等場景中發揮了巨大作用。
從行業研發投入上,國內安防廠商對AI技術投入逐漸加大,尤其是安防賽道中的頭部企業,在AI技術與產品的研發投入占比極高。
另外,新晉的CV獨角獸與互聯網巨頭企業紛紛進入到安防主賽道,加劇行業競爭。但安防不同于互聯網行業,它涉及諸多層面,包括硬件、軟件、系統集成,以及工程與運營,還有渠道建設,這些都需要時間積累與沉淀。
所以我認為,CV公司和互聯網公司雖然能夠利用各自優勢觸達行業、進入到賽道,但他們同樣也面臨傳統安防巨頭的擠壓與競爭。
今年爆發的新冠疫情,對整個城市的安防及應急指揮系統提出極大的挑戰,同時也是前所未有的發展機遇。
從安防行業業務需求看,會出現從事后查證向事前預警前移的需求變化。
我認為安防智能化的一個重要出發點,就是從事后查證向事前預警前移。傳統安防監而不控,更多是強調安防系統的覆蓋面,監控不能有盲點,不能有死角,它只解決“看得到”和”看得清”的問題;而到了安防2.0時代,安防系統還需要”看得懂”,實現這一目標,不能僅僅依靠AI算法和AI芯片,還需要著力提升圖像視頻類感知數據的深度和維度。
另外,AI技術融入安防全產業鏈,上中下游均出現明顯的技術革新趨勢。
傳統安防產業,上游的圖像傳感器供應商,包括芯片和其他電子元器件供應商,負責提供技術給中游的硬件供應商、軟件供應商以及系統集成商,下游以運營服務商為主,為終端客戶提供服務。
AI技術融入安防行業中有一個非常有趣的現象: CV公司開始做芯片,原來傳統上游芯片公司都在做AI算法。
因為通用型的芯片無法滿足垂直場景下的市場需求,所以AI算法必須和芯片結合。這并非簡單的整合,要考慮諸多因素,包括芯片的算力、圖像處理、功耗、成本等。
所以,從上、下游兩個層面來看,下游會提出更多智能化需求,包括場景內的語音識別、圖像識別、文本處理等,上游傳感器供應商正在下沉,實現技術創新、產品創新抑或產業創新。上中下游均呈現明顯的技術革新趨勢。
在AI安防產業圖譜中,增加了智能應用服務的層,主要是以商湯、曠視、云從、依圖為首的AI算法公司。這種AI公司的入局也給整個安防行業帶來了變化。
其次,原本華為處于整個安防產業的下游,更多地是提供一些ICT服務,現在其通訊業務具備云端的能力,海思芯片在安防行業的市場占有率非常高。像華為一樣的巨頭進入,對整個安防行業的格局來會產生深遠影響。
智能安防三大落地方向
未來智能安防落地方向在哪里?我認為在三個層面。
視頻結構化。視頻結構化的概念已出現多時,是指利用計算機視覺和視頻監控分析方法對攝像機拍錄的圖像序列進行自動分析,包括目標檢測、目標分割提取、目標識別、目標跟蹤等。主要作用是為未來人工智能進行數據追蹤和關聯分析提供事前預警。
生物識別技術。生物識別技術是指利用人體生理特性和行為特征來進行個人身份驗證的技術。現在的人臉、指紋、虹膜、聲紋識別都屬于生物識別技術,未來將會在安防行業得到大規模推廣和廣泛應用。
物體識別技術。物體識別的典型案例就是車牌識別,如今車牌識別已成為許多智能停車場的標配。使用車牌識別技術,采集車輛圖像,能夠減輕停車場管理運營的人力成本,提高通行效率。
智能安防市場規模
智能安防的市場規模如何?雖然這些數據的統計時間較早,但是也有一定的參考價值。2017年,中國安防市場的資產規模達到6220億,2018年,智能安防的資產規模接近300億。預計2020年以后,智能安防將創造千億級的市場,所以智能安防市場不容小覷。
智能安防的痛點
智能安防是熱門話題,但具體落地的情況如何?中國一年就有超過5000萬個攝像頭的市場需求,但實際只有50萬個智能攝像頭在應用,比例不到1%。為什么?
第一是成本。前端部分、存儲和視頻分析是智能安防高成本的主要因素。集成施工、機房改造等系統建設的時間和人力成本,也提高了智能安防的落地成本。
第二是數據,安防領域的數據比較分散,存在許多數據孤島。盡管我們一直追求建設智慧城市,倡導數據共享,但這些數據分布在不同的體系里,包括公安、交通、城管等,很難實現共通共享。如果沒有數據,人工智能也無法進行數據分析和支撐。
第三是人工智能應用的深度不足,現在的人工智能技術應用于小范圍或者單目標場景。像安防這種大范圍的監控,還有人、車、物的關聯分析需要專業能力和專業技術的積累。
最后一個是人工智能識別技術對視頻成像的質量有較高要求。為什么會有高要求呢?這就是我后面要展開的,3D視覺與智能安防到底是怎樣的關系?
3D 視覺賦能安防新機遇
人工智能與3D視覺
AI分為三個階段,感知、認知和決策。感知就是AI通過不同的傳感器接收物理世界的信息;認知就是AI通過算法判斷、理解信息;決策就是AI的大腦,做綜合的分析,并執行相應的動作。
感知也分很多種,比如視覺、聽覺、嗅覺、觸覺等,這些都是通過不同傳感器去實現的。感知技術里占比最大的是視覺,視覺在整個感知里占比70%以上。傳統意義上的視覺是以2D為主,現在2D的清晰度也越來越高,4K、8K都已出現,但依然停留在二維、單維的層面,只能解決看得清的問題,缺少了物理世界中的3D圖像,即深度信息。
深度信息到底是什么?舉幾個例子,第1張圖看鴿子的大小,從這個視角上看,鴿子比遠方的行人要大;第2張圖里一個人從窗口探出一只手抓住汽車,感覺汽車變成人手中的玩具;第3張圖中杯子上面的螞蟻好像和遠處飛過的直升飛機一般大。
在二維圖像里,因為不同的拍攝角度,近大、遠小并不是現中的真相。
3D與2D圖像的區別
我們現在看到的所有圖像、視頻都是通過2D攝像頭平面成像,2D無法識別物理世界中的三維信息,比如尺寸、體積、距離等幾何數據。3D攝像頭是立體成像,能夠識別視野內空間上每個點位的三維坐標信息,把這些坐標信息給到計算機和芯片,通過三維成像算法,能完整復原出整個三維圖像。
三種3D視覺成像技術
3D 傳感技術主要分為結構光、ToF和雙目視覺三種,不同的技術路線決定了精度曲線,進而決定應用場景。
傳統的普通雙目門禁就是雙目立體視覺代表,它主要通過三角測距計算出深度信息。但它受環境光影響大,同時需要大量特征識別、立體匹配的算法,匹配和計算過程復雜,難以生成實時的、穩定的深度信息。
現在主流的3D成像技術是結構光和ToF,這兩種技術都是主動光技術。結構光的特點是近距離(1-2米)精度非常高,可以達到毫米級,而且它的分辨率高,成本相對比較低,適合集成。ToF的特點是距離長,能達到5-10米,蘋果剛剛出來的一款iPad就搭載了ToF的激光雷達傳感器。這種傳感器可以實現未來VR和AR的一些功能,但是它點云密度低、掃描延時大、深度圖分辨率低,精度比結構光要差,深度矯正困難。所以結構光和ToF各有優缺點。
現在很多手機已經開始應用3D攝像頭,主要的關鍵點有兩個:前置還是以結構化為主;后置會以ToF的相機為主。
2D與3D在安防產品的應用中有哪些區別?
第一個區別是光線,2D攝像頭在光線較暗的場景下成像質量非常差,尤其是需要附加類似智能分析的功能時,分析效率存在較大問題,會有很多錯檢、漏檢,雖然會有紅外光進行補充,但實際上在紅外上做智能分析會缺失很多信息。
第二區別是人體特征檢測,2D只有XY這樣的平面信息,缺乏深度數據,無法對目標進行精準定位與持續跟蹤。
第三個,目標重疊的時候,2D攝像頭很難把分析目標從背景中分離出來。
而且2D無法做活體檢測,人臉識別中,如果沒有3D的活體檢測,很容易受到照片與視頻的偽裝攻擊。
另外,現在安防家用攝像頭很普遍,但是隱私泄露隱患給公眾造成了心理壓力和安全問題。
3D能夠帶來什么樣的改變?
首先,3D是主動光技術,可以在完全無光照環境下正常的工作。在強光、逆光環境下也能達到較好成像效果。
第二,可以獲取空間中的三維數據,包括尺寸測量,空間中人、車的位置,身高、體重、距離、速度等,都可以精準的計算出來。
另外還可以進行背景分離,實現實時的、動態的人體人像摳圖,在進行智能分析時去除背景干擾,提高算法分析準確率。還可以進行活體檢測與識別,在家庭安防、車內安防等私密場景中,我們只需要一些深度信息,即可以實現這種安全監控與行為分析。
安防系統中的生物識別技術
生物識別技術正成為世界范圍內使用最為廣泛的技術之一,市場上主流的生物識別技術主要有人臉識別、指紋識別、虹膜識別、聲紋識別。它們有哪些優缺點?
我認為指紋識別的應用性比較好,成本較低,技術較成熟,但是用戶體驗差,比如手指有破損或者有水有汗的時候,經常識別不出來。另外它的防攻擊能力弱,會帶來很多安全隱患。
虹膜識別的安全性是最高的,但是它的易用性很差,而且成本較高。指靜脈也是一樣,安全性高,成本高,適用性很強。
人臉識別技術比較成熟,成本也適中,可以實現無感識別,在人機交互方面比較自然,唯一的缺點還是安全性低。
人臉識別的安全性怎么會低呢?試舉以下幾個案例:去年嘉興一群小學生利用父母的高清照片成功在快遞柜上刷臉取件;智能門鎖很多也應用了人臉識別,但媒體做了一個小測試,拿出打印好的業主照片,對準門口的攝像頭,輕易地就把門打開了;有一次我住酒店時看到前臺有自助酒店服務終端,我就把我的身份證和照片發給我的同事,他用我的身份證和照片,輕而易舉地完成了核驗,拿到了房卡。
其實基于2D的人臉識別有很多漏洞,雖然現在很多廠商宣稱其使用的雙目、AI+RGB能做到活體檢測,但是這種技術被攻破幾率很大。
基于3D圖像的人臉識別
奧比在做3D活體檢測實驗中,工作人員用很多的假體,包括頭套、面具、照片攻擊3D人臉識別系統,系統能夠非常準確地判斷。在整個活體檢測實驗中,我們采用2000多種不同材質的假體做大量實驗,做相應的算法去規避這些假體對人臉識別系統的攻擊。
去年我們取得了銀行卡檢測中心的“活體檢測”認證報告。奧比中光涉獵新零售業務,需要保證刷臉支付的安全,支付寶刷臉支付終端就使用了奧比中光的3D攝像頭。
我們在智能門禁領域做了一些嘗試,有個合作伙伴戴頭套測試我們做的一款閘機,系統植入了3D信息,跟2D算法融合,在速度和效率上有成倍提升,所以系統很快識別出來,這款閘機目前主要供應給銀行、政府部門等重點安防場所。
我認為未來高鐵站的刷臉進站、海關的刷臉通關以及更多的場景都會逐步替換成有3D視覺的設備。
除了人臉識別以外,安防有一個很重要的場景叫行為分析。傳統的2D行為分析更多的是靠數據訓練深度學習和識別能力。3D視覺對視頻里的異常行為能夠實時地跟蹤與判別,例如突然倒地、突然劇烈運動、人數異常、區域入侵等事件。
我們在很多場景中已經開始使用3D視覺,智慧養老場景中,為家里的老年人做異常姿態檢測;智慧金融場景中,檢測異常情況,例如有人倒地、打架斗毆或者有人徘徊等事件;在智慧監舍場景,由于監舍對犯人的行為監控要求非常高,用3D攝像頭可以識別他們的一些高危險行為。
我們也有客流分析系統方面的案例,主要在公交車領域,統計單位時間內上下客流的情況,實時數據會傳送到車輛指揮調度系統,幫助調度中心進行車輛的指揮和調度,在高峰期可以調整運營、減輕壓力。
刑偵領域需要進行犯罪現場的實景還原,原來只能拍照、錄像或者現場人工測量,現在3D視覺系統可以把整個犯罪現場完整地進行掃描和復刻。因為犯罪現場不能一直保留,查案時可以在這種三維系統里進行重新排查。另外,庭審時也可以復原整個案件、插入語音講解、播放圖像視頻等,能夠非常直觀地呈現案件發展過程。
評論
查看更多