在科技爆發(fā)的時(shí)代,人工智能(Artificial Intelligence, AI)技術(shù)越來(lái)越常出現(xiàn)在我們生活。AI技術(shù)表示能夠讓機(jī)器具有類似人類的智慧,可用來(lái)提升人們的生活質(zhì)量、工作效率等。以日常生活中常見的攝影機(jī)為例,這些攝影機(jī)可以組成一套監(jiān)控系統(tǒng),守護(hù)我們的安全。受惠于消費(fèi)電子產(chǎn)品的發(fā)展與低廉的價(jià)格,一般民眾也能在自己的家里安裝攝影機(jī),目的通常是為了居家監(jiān)護(hù),觀測(cè)是否有人進(jìn)出畫面、隨時(shí)注意家中寶寶的狀態(tài),或者觀看寵物的最新動(dòng)向。市面上的攝影機(jī)產(chǎn)品大多具有人物偵測(cè),甚至是人臉或口鼻偵測(cè)等相關(guān)功能。這些功能可以自動(dòng)判斷畫面中的信息,讓我們得知人物出現(xiàn)的時(shí)機(jī),不需要長(zhǎng)時(shí)間觀看畫面去追尋特定的人物。而當(dāng)我們談到人物偵測(cè)時(shí),最廣為人知的方法就是「人臉偵測(cè)」(detection),藉由分析人臉的器官部位特征,如:眼睛、鼻子、嘴巴等,可以得知畫面中是否有人臉。另一個(gè)進(jìn)階應(yīng)用為「人臉識(shí)別」(recognition),用來(lái)辨識(shí)人臉的身分為何,此技術(shù)需要事先建立數(shù)據(jù)庫(kù)搜集每個(gè)人員的臉部特征,因此常引來(lái)隱私權(quán)的爭(zhēng)議。本文將探討人臉偵測(cè)的原理,并說(shuō)明可能遇到的潛在問(wèn)題。
傳統(tǒng)人臉偵測(cè)的原理
傳統(tǒng)的人臉偵測(cè)做法,需要分析圖片上每一個(gè)像素點(diǎn)(pixel)的RGB色彩值,這種作法會(huì)花費(fèi)大量的運(yùn)算資源與時(shí)間。根據(jù)相關(guān)的研究論文,研發(fā)出分析方法的團(tuán)隊(duì)使用哈爾小波轉(zhuǎn)換(Haar wavelet)的概念來(lái)設(shè)計(jì)一個(gè)分析影像特征的方法,稱為哈爾特征(Haar-like feature),藉由搜集人體的身形輪廓特征,可以在圖片上偵測(cè)是否有人物出現(xiàn)。
圖一(a)即為舉例說(shuō)明邊緣線條的哈爾特征。后來(lái)團(tuán)隊(duì)擴(kuò)充此方法,發(fā)展為成臉部偵測(cè)的系統(tǒng)。因?yàn)槿四樰喞哂幸欢ǖ囊?guī)律性,特別是在眼睛、鼻子、嘴巴區(qū)域,此處的輪廓特征最為明顯。圖一(a)的左半部則為哈爾特征,用來(lái)分析畫面中的輪廓是否與已有的輪廓特征方格相近。以圖一(b)的上方為例,就是將特定影像區(qū)域的內(nèi)容與哈爾特征進(jìn)行分析,計(jì)算兩者的相似度。當(dāng)影像內(nèi)容與哈爾特征完全相同時(shí),所得到的相似率為1。然而,實(shí)際影像不可能會(huì)與哈爾特征完全相同,如圖一(b)的下方。此相似率可以協(xié)助我們?cè)u(píng)估畫面上的對(duì)象是否符合指定特征。
圖一:哈爾特征的樣式與計(jì)算范例。
藉由收集相關(guān)的特征數(shù)據(jù),能夠建立一個(gè)數(shù)據(jù)庫(kù)來(lái)描述人臉的特征,進(jìn)一步讓計(jì)算機(jī)判斷是否有人臉出現(xiàn)在畫面上。以鼻子為例,鼻翼四周的輪廓就是一個(gè)很明顯的臉部特征。
然而,當(dāng)計(jì)算機(jī)進(jìn)行分析時(shí),就需要計(jì)算指定圖片區(qū)域的像素點(diǎn)數(shù)值,這個(gè)計(jì)算量往往相當(dāng)龐大。以圖一的為例,當(dāng)我們計(jì)算4×4的圖片區(qū)域時(shí),里面一共有16個(gè)像素點(diǎn),若要計(jì)算該區(qū)域的數(shù)值總和時(shí),直覺(jué)的做法是將這16個(gè)點(diǎn)加在一起。此方法雖然簡(jiǎn)單,但圖片尺寸變大、需要分析的特征變多時(shí),會(huì)消耗大量的運(yùn)算資源與時(shí)間。因此,研究人員進(jìn)一步提出一系列的方法來(lái)縮短整體流程,首先是積分圖(integral image),此方法會(huì)在起始階段掃描整張圖片并計(jì)算每個(gè)像素點(diǎn)的累加值?;氐较惹暗睦雍?,計(jì)算圖片區(qū)域的數(shù)值總和時(shí),只需要計(jì)算4個(gè)像素點(diǎn)的信息。以圖二為例,當(dāng)我們想要計(jì)算灰色區(qū)域的數(shù)字總和時(shí),直覺(jué)做法為將6個(gè)像素點(diǎn)的數(shù)值累加起來(lái)。而積分圖的做法是先建立一個(gè)像素點(diǎn)的累加值,然后再選取鄰近四個(gè)像素點(diǎn)的數(shù)值進(jìn)行運(yùn)算,如圖二積分圖中被粗框框起來(lái)的數(shù)值。此作法可以大幅度降低運(yùn)算成本,不論計(jì)算的范圍有多大,只需要4個(gè)數(shù)值的運(yùn)算即可得到區(qū)域的總和。
圖二:積分圖例子。
后續(xù)的研究還有結(jié)合自適應(yīng)增強(qiáng)(adaptive boosting, AdaBoost)與串接(cascade)技術(shù),判斷畫面上是否有特定的臉部器官,若有符合條件(如:發(fā)現(xiàn)鼻子)才會(huì)進(jìn)行后續(xù)的分析。此流程的執(zhí)行速度能夠在一秒鐘處理15張圖片(frame per second, FPS),可用于實(shí)時(shí)的對(duì)象偵測(cè)。這個(gè)技術(shù)被廣泛用在現(xiàn)有的人臉偵測(cè)系統(tǒng),網(wǎng)絡(luò)上也有許多教學(xué)供有興趣的人去研究使用。
灰階加速運(yùn)算,卻產(chǎn)生公平性爭(zhēng)議
值得注意的是,這些人臉偵測(cè)的系統(tǒng)都會(huì)把彩色圖片轉(zhuǎn)換成灰階(grayscale)樣式,研究人員也有特別說(shuō)明這一點(diǎn),這套快速的偵測(cè)系統(tǒng)僅適用于灰階的圖片。在人類眼中,我們能夠看到各式各樣的色彩。對(duì)計(jì)算機(jī)來(lái)說(shuō),也常使用RGB色彩空間來(lái)定義顏色,一張彩色的圖片可以用RGB三個(gè)通道來(lái)描述內(nèi)容。以一個(gè)像素點(diǎn)來(lái)說(shuō),它的顏色一共有255×255×255(約1658萬(wàn))種組合。如果采用灰階的色彩空間,一個(gè)像素點(diǎn)只有255種組合。當(dāng)計(jì)算機(jī)在分析圖片的時(shí)候,使用灰階圖片可以降低大量的運(yùn)算資源并縮減時(shí)間。此外,灰階的程序代碼復(fù)雜度也較低,如果一開始使用彩色空間進(jìn)行輪廓分析,需要考慮各種信息,如:亮度、色差??等,將這些信息納入分析之后,整體執(zhí)行效率往往比灰階圖片還要慢。基于效率的需求,大多辨識(shí)系統(tǒng)的流程都會(huì)先將彩色照片轉(zhuǎn)換為灰階照片,期望能夠快速地獲得結(jié)果。
然而,這種做法會(huì)遇到一些潛在的問(wèn)題,膚色淺的人種在此系統(tǒng)中會(huì)有較好的辨識(shí)效果,膚色深的人種會(huì)不易被辨識(shí),由于人權(quán)意識(shí)的興起,AI技術(shù)的公平性也常受到檢視?;仡櫹惹疤岬降臄?shù)據(jù)處理流程,他們會(huì)先將彩色照片轉(zhuǎn)換為灰階照片,然后再分析灰階照片上的輪廓特征,檢查是否有特定輪廓的信息。以圖三為例,有3種不同膚色的人臉示意圖,當(dāng)轉(zhuǎn)換成灰階照片后,可以發(fā)現(xiàn)膚色深的輪廓較不明顯。根據(jù)后續(xù)的研究數(shù)據(jù)顯示,研究人員將搜集的皮膚顏色數(shù)據(jù)集大致分為3種類型:淡色皮膚、棕黃皮膚、深色皮膚。圖三的人臉圖片參考所統(tǒng)計(jì)的皮膚色碼,然后使用臉部偵測(cè)來(lái)觀察各自的辨識(shí)效果。
圖三:不同膚色的臉部偵測(cè)流程。
這3張圖片都屬于人臉,唯一的差別只是膚色不同,理論上應(yīng)該都能夠被偵測(cè)到。當(dāng)這3張圖片轉(zhuǎn)換成灰階照片后,我們觀察鼻子附近的輪廓,可以發(fā)現(xiàn)深色皮膚的鼻子輪廓較不明顯。這些照片套用先前提到的哈爾特征計(jì)算方式,即黑色區(qū)域與白色區(qū)域的數(shù)值相減,淺色皮膚的照片會(huì)得到較高的相似率,而深色皮膚會(huì)得到較低的相似率。從上面的例子可以得知,膚色淺的人種在此模型中會(huì)有較好的辨識(shí)效果,而膚色深的人種會(huì)不易被辨識(shí)。其背后原因和跟運(yùn)算流程有關(guān),因?yàn)閷⒉噬珗D片轉(zhuǎn)成灰階圖片可以大幅縮減運(yùn)算時(shí)間,但對(duì)于不同膚色的人種會(huì)有不同的偵測(cè)結(jié)果。對(duì)當(dāng)初的開發(fā)者來(lái)說(shuō),他們僅是想要提出一套快速的偵測(cè)方法,但此方法間接產(chǎn)生公平性的議題,這個(gè)影響也是始料未及。
對(duì)象偵測(cè)技術(shù)YOLO的發(fā)展與爭(zhēng)議
除了人臉偵測(cè)的技術(shù)以外,對(duì)象偵測(cè)(object detection)技術(shù)在計(jì)算機(jī)視覺(jué)(computer vision, CV)研究領(lǐng)域也受到許多注目,因?yàn)閿z影機(jī)的畫面通常包含許多信息,如:寵物、車輛等,對(duì)象偵測(cè)可以自動(dòng)分析畫面中的對(duì)象種類。以YOLO(You Only Look Once)為例,此方法直接將整張?jiān)迹ú噬﹫D片輸入至卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks, CNN)進(jìn)行分析,并且依靠圖像處理器(graphicsprocessing unit, GPU)的運(yùn)算能力,一秒鐘可以處理45張圖片,表示已能夠進(jìn)行實(shí)時(shí)對(duì)象偵測(cè)。YOLO發(fā)表之后受到許多人的關(guān)注,累積至2021年10月的論文引用數(shù)已高達(dá)1萬(wàn)9千多次。YOLO的作者后來(lái)發(fā)表YOLOv2與YOLOv3的研究,提供更快速、更精準(zhǔn)、可識(shí)別更多對(duì)象的能力,并且開放原始碼讓有興趣的研究團(tuán)隊(duì)可以研究他們技術(shù)。
然而,YOLO的作者雷德蒙(Joseph Redmon)在2020年于個(gè)人twitter發(fā)表了一段令人震撼的宣言:
I stopped doing CV research because I sawthe impact my work was having. I loved the work but the military applicationsand privacy concerns eventually became impossible to ignore.
雷德蒙表示雖然個(gè)人很熱愛計(jì)算機(jī)視覺(jué)的研究,但發(fā)現(xiàn)到其研究成果在很多領(lǐng)域產(chǎn)生影響,特別是軍事應(yīng)用與個(gè)人隱私的問(wèn)題,這些倫理議題是無(wú)法忽略的,因此選擇離開計(jì)算機(jī)視覺(jué)的研究,讓其他人繼續(xù)接手相關(guān)研究。YOLO官網(wǎng)后來(lái)仍發(fā)布新版的YOLOv4的信息,作者就不再出現(xiàn)雷德蒙的名字,取而代之是原本的程序代碼維護(hù)者。
審核編輯:湯梓紅
-
計(jì)算機(jī)
+關(guān)注
關(guān)注
19文章
7523瀏覽量
88315 -
RGB
+關(guān)注
關(guān)注
4文章
800瀏覽量
58598 -
AI
+關(guān)注
關(guān)注
87文章
31262瀏覽量
269628 -
人工智能
+關(guān)注
關(guān)注
1792文章
47497瀏覽量
239214
原文標(biāo)題:生活中的AI應(yīng)用:淺談人臉偵測(cè)原理及衍伸的倫理議題
文章出處:【微信號(hào):易心Microbit編程,微信公眾號(hào):易心Microbit編程】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論