【導讀】:最新,眼擎科技eyemore成像引擎隨處可見,讓機器擁有人眼,真有那么厲害還是吹捧過度呢?
視覺“識別”是人工智能時代下,對安防行業而言最重要的技術之一,但目前無論是人臉識別還是車輛識別,都面臨著被復雜光線影響的問題,而后端算法只能做到在特定場景、特定光線狀況下,對物體進行有效識別,可一旦光線發生了變化,識別率就會大打折扣。
“機器視覺不能重蹈語音識別的覆轍。”眼擎科技CEO朱繼志告訴億歐,語音識別技術已經宣稱識別率達到99%,但卻遲遲無法在生活場景中大規模應用,原因就在于“99%的數據是在安靜的實驗室中得出的,而生活場景中有大量的噪音,這對識別產生了巨大的干擾。”同理,在視覺識別中,攝像頭正常光照下的成像AI識別率能接近100%,但實際部署中不可避免會遇到弱光、逆光、反光等復雜光的影響,所以現實中算法識別率遠不能達到實驗室的“理論”效果。
“大腦要強,但如果感知端無法傳輸有效的信息,那么大腦再強也沒有用。”針對當前AI成像的問題,朱繼志于2014年創立了眼擎科技,研發超越人眼視覺能力的成像引擎技術及芯片,解決數碼成像在弱光、逆光、反光等復雜光環境下成像的痛點。
AI視覺新問題:大腦夠強了,眼睛卻跟不上
在安防領域,每年攝像頭出貨量超過1億臺,人臉識別、車輛識別等算法的成熟持續帶動著安防市場擴大,但在實際應用中,“識別”受到了諸多環境因素的限制,其中最重要一個挑戰就是復雜光線。
“如果將整個識別的系統比作一個人,我們現在已經有很強的大腦了,但眼睛卻跟不上。”朱繼志告訴億歐,要對人臉、車輛進行識別的前提條件,是前端攝像頭能夠傳回清晰的畫面。但現在的問題是,在光線環境足夠好的時候,“大腦”對畫面內容的識別率能接近100%;但在弱光、逆光、反光等復雜光環境下,由于無法接收到清晰的畫面,“大腦”對畫面內容的識別率大打折扣。
為了解決復雜光問題,業內出現了各種各樣的應對方法。針對黑暗或弱光環境,可以使用紅外線,或者直接在攝像頭旁加裝一盞燈,“但這些方法只能解決一部分的光問題,而且還有’副作用’。”朱繼志說,紅外線只能在近距離發揮作用,而且成像噪點大,畫質極易受到干擾;而加裝燈的方法只在某些場景下可行,“比如晚上在閘機口處加裝燈是可行的,但在公路上抓拍車輛的場景卻不合適。”朱繼志說道,大多數司機都對夜晚路過抓拍機的爆閃燈“有很不好的體驗”,但如果不加裝爆閃燈,監控設備就無法正常捕捉到車輛信息。
解決單一非正常光環境的方法已經不盡如人意了,而前端設備需要面臨的遠不止一種光環境。朱繼志告訴億歐,弱光、逆光、反光等只是復雜光線下的幾種典型,而大部分在戶外使用的攝像頭需要面臨的卻是多種復雜光線交替出現的場景。
以閘機口為例,攝像頭架設的位置和方向是固定的,但一天中光線的強弱、光源位置都會發生變化。“早上太陽從東邊升起,傍晚從西邊落下,到了晚上又是黑的。”朱繼志說,如果攝像機朝向東方,則早上逆光現象就會非常嚴重,朝向西邊也是同理,到了晚上又是弱光,而通常情況下算法只能針對其中一種狀況作出優化,這給閘機的高效識別帶來巨大的挑戰。
打破被日系企業壟斷的ISP架構
不解決弱光、逆光、反光等復雜光環境下的自適應能力,AI視覺產品就無法大規模落地進行產業化。但要怎么做才能解決這個問題呢?
朱繼志認為,這個問題的出路在前端。“無論是什么樣的光環境,只要前端設備面臨負責光線對成像的干擾時,依然能夠輸出如同正常光環境下成像的效果。那么企業在后端算法上就不需要再做過多的定制,如此一來,企業就能夠生產更多標準化的產品,提升企業、乃至整個行業的效率。”
要改造前端設備,首先需要了解當前攝像機成像的原理,以及存在的問題。
朱繼志介紹道,在數碼時代,攝像頭成像需要經歷幾個環節。首先,光線穿過鏡頭后,要經過CMOS傳感器,CMOS會將光信號轉化為電信號,“但這個電信號是很粗糙的,”朱繼志說,“如果要將它再轉化成一張可視化的圖像,就要再經過ISP。”
ISP全稱為Image Signal Processing,即圖像信號處理,主要用來對前端圖像傳感器輸出信號處理進行處理。ISP架構能夠通過一些列的工作,實現自動光圈、自動曝光、自動白平衡等功能,讓電信號真正變成一張可看的圖像。
“但傳統的ISP架構有兩大問題。”朱繼志說。第一個問題是所有RAW數據在進入ISP架構時,會直接從16位被裁成8位,導致了大量RAW數據信息丟失。RAW是一個單獨的數據流,如果16位的信息變成8位,那么再轉換成JPG格式圖片時,圖片信息就會比原始的RAW數據信息少256倍。“這就是為什么圖像在逆光、反光等復雜光環境下質量不高、成像不清晰的原因。”
另一個問題是,ISP架構所有核心技術都被日本企業掌握。“日本公司是成像行業的頭部企業,如果他們都不對ISP架構進行突破,那其他公司更加不可能做出大的改變。”朱繼志說道。
但成像中存在的痛點深深影響著AI視覺產品的大規模落地是不爭的事實。既然無法改變傳統的ISP架構,那就一定要在技術上進行創新。秉著這樣的初衷,眼擎科技完全拋棄了日系成像技術的ISP架構,打破了日系廠商在成像領域的技術壟斷,開發出了全新的“成像引擎”。
從“給人看”到“給機器看
“如果一個問題存在了很久,都沒有被現有架構解決,這說明一定要有全新的技術架構才能破解難題。”朱繼志告訴億歐,眼擎科技開發的“成像引擎”就是這樣一個解決復雜光環境下AI視覺成像問題的全新架構。
“傳統ISP架構的目的是為了實現成像這個功能,”朱繼志說,“但成像引擎重視的是成像的性能。”
據了解,成像引擎是一個“算力+算法+數據”的全新成像架構,具有學習功能。朱繼志向億歐介紹道,處理圖片是一個十分復雜的過程,因此算力對成像引擎而言十分重要;但光有算力是不夠的,還要開發出針對不同場景的算法,才能解決實際應用中的問題;在算力和算法都具備的條件下,最終還需要在不同復雜光環境下進行測試,以收集到更多的場景數據,讓算法進行學習,達到讓整個成像引擎能夠適應多種復雜光環境的目的。
在成像引擎實際運作中,“經過CMOS的8~16位RAW數據進來時,我們直接基于RAW數據進行無裁剪處理,如果按照16位的數據來算,成像引擎處理的原始圖像信息量比傳統ISP高256倍,最后把它壓縮成8位的JPG圖像。”朱繼志說,這樣的方法能夠保留所有圖像細節信息,無論在什么光線環境下,都能對圖像實現優質處理。
“顏色是AI測量世界的根本依據,也是深度學習進行圖像識別的基礎。”朱繼志認為,成像技術的目的已經從“給人看”過渡到“給機器看”,“AI視覺需要的是一把標尺,關注的不是美顏、像素,而是準確的輸出物體的顏色、銳度以及豐富的細節。”
據了解目前成像引擎暗光能力比人眼高8倍,降噪能力比攝像頭高64倍,逆光能力比攝像頭高32倍。未來三年,眼擎科技的使命就是讓成像引擎芯片的成像能力將全方位超越人眼。
AI視覺的“最后一公里”
今年1月,眼擎科技推出了完全自主研發的全球首款復雜光線專用成像芯片eyemoreX42。除了成像芯片,眼擎科技也通過提供成像開發套件、成像模組、成像算法IP以及深度定制成像方案等一系列全套的成像技術方案及服務。
“我們定位是一家上游的芯片公司。”朱繼志告訴億歐。傳統ISP架構集成在SoC里面,而眼擎科技拋棄ISP架構后,需要填補成像技術的空白,但眼擎科技的成像引擎是一個“算力+算法+數據”的全新成像架構,原來ISP在SoC中所處的位置無法承擔成像引擎的處理能力,“所以我們要單獨生產一個芯片來實現成像引擎的功能。”
“AI正驅動著芯片產業發生變化。”朱繼志告訴億歐,以前CPU一家獨大,攝像機里只需要一個主芯片就能實現所有功能;但AI時代來臨后,GPU的重要性就體現出來了,所有算法都是基于GPU實現,因此攝像機中需要加入GPU;但當GPU的算力變得很強、算法很豐富的時候,前端攝像頭能力的好壞就成了AI視覺“最后一公里”的關鍵問題,因此還需要一款新的成像芯片來解決這個問題,眼擎科技解決的正是這“最后一公里”的問題。
朱繼志表示,眼擎科技的愿景是成為AI成像領域的頭部企業,定位上游的技術方案商,通過賦能的方式,向下游打造終端產品的公司輸出自己的成像能力。據了解,眼擎科技未來將在安防、工業檢測、無人零售、智能醫療、機器人、深度相機等領域重點發力。
“我們是面向未來的,關注的是新產品和新應用市場。”朱繼志告訴億歐,眼擎科技的戰略是先做核心技術突破,再找市場應用部署,“場景與技術是相互推動的,場景的需求能催生技術的更新,而技術的創新能’解鎖’更多應用場景。”朱繼志說,比如在安防領域,眼擎的全新成像技術將變革閘機的場景,未來閘機處的攝像頭不再需要任何輔助光源,也能清晰的“看”見人和物;同樣,“未來公路上有爆閃燈,可能也會變成一件奇怪的事。”
今年是眼擎科技啟動市場推廣的第一年,朱繼志認為,將芯片推向市場需要2年的時間,之后還要再用2年的時間等待市場成熟。“AI視覺成像能力的改變并不是一蹴而就的,而是一個慢慢迭代升級的過程。”朱繼志說,只講技術原理,安防圈子的人都懂,但只有看到成像引擎的實際效果,市場才能對這個原創技術有最直觀的感知,“用戶體驗這種主觀的感覺是很難說清楚的,所以還需要時間讓大家慢慢了解和接受。”
eyemore成像引擎,是否真像口頭說得那么厲害,只有到真正商用級別的時候才能見真章,更希望中國IOT大會中能夠見到眼擎科技帶來的干貨,在此我們滿懷期待,靜候眼擎科技佳音。
評論
查看更多