機器學習雖然能夠在很多地方顯示出強大的力量,同時也被集成到了很多的商業流程中去,但它依舊有一些不完美的地方,今天我們就通過一些典型的例子來深刻感受一下機器學習的局限性。
人臉識別
目前最先進的人臉識別系統可以達到99%的準確率。作為使用最為廣泛的機器學習算法,人臉識別得到了飛速的發展,但在這背后需要我們對幾件事情保持清醒。首先,99%的正確率是來自與驗證數據集的測試結果,而驗證數據集則來自于與訓練數據集相同的數據集,并從中隨機抽取。這就意味著數據的均值和方差與訓練數據十分相似。但當我們將系統置于真實情況下時,實際照片的特性與訓練數據不可能相同,那么實際的精度很有可能低于99%。
模型有時候會將其他的東西識別成人臉(假陽性)或者忘卻漏掉了人臉(假陰性)。不同的模型在不同的階段有著不同的表現,在使用時你需要確定你需要什么樣層次的模型,給出多高的精度是可以接受的。在選擇權衡算法時,一個模型在檢測幾千張臉時錯檢幾十張,而另一個模型可以將準確率提高一半但需要10x的處理時間和運算,那么前者將會是不錯的選擇。剩下的可以交給人類來做,我們對于少量假陽性和假陰性的樣本有著非常快的準確識別能力。
下面是幾個關于模型訓練的數據清理經驗。最好的當然是保證每一張臉都可以很容易地看到,沒有模糊遮擋,也沒有很奇怪的角度。同時圖像要保持適度的分辨率,分辨率太高的圖像容易引入造成算法失效的噪音。
光學字符識別(OCR)
目前最先進的光學字符識別系統對于文件的識別與排版已經有十分優異。基于邊緣檢測、計算機視覺與字符識別的技術使得OCR不斷改進,對于掃描文檔幾乎沒有障礙了。
但目前OCR還不能夠勝任的是非掃描文件的識別,這也是驗證碼還能作為網站人類識別的功能存在。人類對于字母識別有著無與倫比的能力,無論是模糊、扭曲、顏色不同都不在話下,而計算機望塵莫及。
OCR很有用但對于一些場景下使用不當就會文不對題,下面這張球賽的截頻就是一個典型的例子。
上圖如果用OCR識別很有可能生成這樣的一大串:
[0] PREMIER LEAGUE [1] TOT 2 [2] M [3] U [4] 0 [5] 36:2 [6] 4 [7] SPORTS [8] NEW 0 BUR 0 [9] HALFTIME [10] LIVE [11] NBCSN
如果沒有上下文語境我們很難明白識別出的意思,哪里是隊名哪里是logo?這會造成很大的混亂。
我們不應該像使用通用OCR一樣來直接簡單粗暴的套用,而是需要針對情況進行分析。對于上面的例子如果我們想要追蹤球員,那么目標追蹤的方法會很好,但如果想要追蹤比賽分數和時間,那么將OCR限定在固定區域中會是不錯的選擇。
視 頻
視頻是一種很神奇的存在,雖然很多機器學習模型能在視頻上實現和照片一樣的效果,但總會有意想不到的情況。數字世界的解碼和封裝總是與視頻的壓縮率和長寬比耦合在一起。
同時考慮到處理時間和算力的限制,對視頻進行處理時我們往往選擇低分辨的格式。當你選擇低分辨率或者較高的壓縮時,視頻并不會是一組連續的靜態圖片,所以計算機視覺的識別方法將會與靜態圖片中的識別方法有很大的差別。
為了說明這一情況我們可以隨便點開一個視頻并暫停,如下圖所示。人們的臉變得模糊、角度和整體形象都顯得和靜態下十分不同。
下面應該是計算機看到的人臉區域:
你能從中認出圖中的主角是誰嗎?如果對你來說很困難那么對于計算機來說也不容易!
對于人類來說,在視頻中識別人臉很容易,但要把獨立的幀抽取出來你會發現圖像質量出乎意料的差。
但我們也不能否定機器學習,因為機器學習在大多數情況下對于視頻的自動化分類和標注時十分重要的手段。我們需要明白的是我們期望得到的結果以及如何去修正模型實際的表現。如果一個龐大的全球名人識別模型對一段視屏進行檢測可能會出現很多假陽性的結果,但是如果使用一個僅僅包含幾個著名人士的模型來檢測則會得到好得多的結果。如果你的模型表現不好,你還可以從數據的角度來改進,譬如說某個節目中人臉出現的位置就可以作為先驗知識來幫助機器提高正確率。我們需要嘗試不同的模型和工作流總能取得成功。
如何成功的應用機器學習?
機器學習十分強大,有人將它應用于檢測學術造假的論文,也有人將它應用于人臉身份認證、不良內容的裸露檢測等。同樣也用于為用戶推薦商品和服務的推薦引擎上,在這樣的場景下假陽性和假陰性的推薦結果不會造成太大影響,事實上一些異常推薦還為用戶探索新事物提供了條件。
還有改善搜索引擎的個性化能力,檢測農作物動物的疾病以及預測產量等等方面。機器學習將會有無數的應用,我們對它充滿期待,但同時也會把握住期待的方向讓機器學習正常運轉。
-
人臉識別
+關注
關注
76文章
4012瀏覽量
81960 -
機器學習
+關注
關注
66文章
8422瀏覽量
132723
原文標題:靈魂拷問:是什么讓機器學習達不到我們的期待呢?(開頭有個大事兒)
文章出處:【微信號:thejiangmen,微信公眾號:將門創投】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論