一雙眼睛的局部細節圖出現在電腦屏幕上,小慧對著放大的眼睛,一步步地做好標記點。
一眼望過去,一排排的電腦屏幕上,都是類似的畫面。也許是因為窗簾的遮光效果太好,略顯昏暗的辦公環境加上電腦屏幕上被放大的各種物體細節,頗為驚悚。
在某人工智能研究院看到這一幕,不覺驚嘆即使是頭部的AI創業公司,最關鍵的一環依然是從數據標注員開始的。
而這是一群被稱作第一批被AI累死的人。
AI的老師:畫框的這些人
伴隨著AI興起的最關鍵的技術莫過于深度學習,作為深度學習的基礎,神經網絡是一種以輸入為導向的算法,其結果的準確性取決于接近“無窮”量級的數據。
所以摒除那些復雜的中間環節,深度學習最關鍵的就是需要大量的數據訓練,這也是為什么在互聯網大數據的時代,AI可以崛起。而在數據訓練之前,又必須先對大量的數據進行標注,作為機器學習的先導經驗。
因此,催生了大量數據標注員的產生。
簡單的說,數據標注員類似于AI的老師,舉個形象的例子,我們要教機器認識一個蘋果,你直接給它一張蘋果的圖片,它是完全不理解的。我們得先有蘋果的圖片,然后在上面標注著“蘋果”兩個字,機器通過學習了大量的圖片中的特征,這時候再給它任意一張蘋果的圖片,它就能認出來了。
據了解,目前標注員的工作內容常見的有拉框標點、打標簽、分割、批注等等。其中分類就是最常見的打標簽,比如標注畫面上動物毛發顏色、動物耳朵等等;框選是將畫面中相對應的對象標框標注;還有一種是描點標注,一般用于更細致的人臉標注:需要在眉毛、眼睛、鼻子、嘴巴等關鍵點做二十多個標記點。
從他們的基本工作內容就可以看出來,數據標注是個非常枯燥而又考驗人耐力的工作,并且相比較AI所代表的高科技,標注看起來毫無技術含量。
一條產業鏈的開始
但巧婦難為無米之炊,AI算法的訓練離不開這些大量的數據標注,與之相伴生的數據標注外包業務也成了熱門的產業。
在IT桔子的大數據標注公司專輯中,一共收納了6家,其中,有5家都在2017年到2018年這個時間周期內獲得千萬的融資:
2017年7月,BasicFinder完成1000萬人民幣Pre-A輪融資;
2017年11月,龍貓數據獲得A輪3370萬人民幣融資;
2018年1月,星塵數據獲得1000萬人民幣Pre-A輪融資;
2018年3月,愛數智慧獲得A輪融資;
2018年5月,周同科技完成2000萬人民幣A輪融資。
同時,他們業務方向也有一定細分區別,有的以處理圖像見長,有的數據標注公司更擅長做一些視頻標注。而這些公司的服務企業有百度、小米、京東、今日頭條這樣的互聯網公司,也有出門問問、云從、深鑒等AI公司。
另外,像京東、百度、騰訊、阿里其實都有自己的標注平臺和工具。
而在國外方面,亞馬遜有推出眾包數據平臺Amazon Mechanical Turk,初創公司方面則有CrowdFlower、Mighty AI等。
這些已經算是這個領域的佼佼者了,在他們的下面,還有成百上千的小的數據標注公司。
據悉,數據標注行業實行這樣一套分工流程:上游的科技巨頭把任務交給中游的數據標注公司,再由中游眾包給下游的小公司、小作坊,有的小作坊還會進一步眾包給“散兵游勇”,比如學生或家庭主婦。
這條產業鏈上,分包現象越嚴重,最終落到最底層的數據服務公司的價格就越低,一層層的“數據黃?!眽嚎s了利潤空間,所以一些任務經過數手轉包,酬勞已低得驚人。
目前的數據標注工作主要是集中在河北、河南、山東、山西等勞動力密集的地區,這樣的選址也因為能夠以更加低廉的勞動力成本去完成大量的數據標注工作。
在很多數據標注的報道中,出現頻率最高的都是那些畢業于職業技術學校的學生,他們在三四線城市,只需要會操作電腦,就能做數據標注的工作。然而枯燥而又乏味的重復性工作,導致數據標注人員的流動性非常之大。此前,在澎湃新聞的一篇視頻采訪中,某數據標注公司創始人表示他們有500名左右的在職人員,但是全職的只有11、12個。
在一些大的數據服務公司,他們宣稱平臺用戶(數據標注人員)超過20萬人,其中很多都是兼職人員。
不過,快速的人口流動也依然阻擋不了低門檻數據標注生意的紅火。
有多少智能,就有多少人工
即使現在有一些數據服務平臺開發了AI工具來輔助人工標注,但依然需要數據標注員去檢查和修正其中的錯誤。在一些專業數據標注公司,機器占30%,而人工標注占比達到70%左右。
梳理數據標注員的工作邏輯,就像一個悖論,AI能否進化的更為智能某種程度上取決于這些標注工作的人,而這個工作卻是最不智能、最沒有技術含量的。
記得在一篇采訪中,管理標注員的負責人用特斯拉(Tesla)的自動駕駛事故給員工“打雞血”,他提到2016年,一輛自動駕駛模式下的特斯拉發生車禍事故。事后特斯拉公司發表聲明稱:白色卡車在藍天背景下識別不出來,特斯拉因此沒有啟動剎車。
“我一直跟他們說:‘你們打磨的每一個數據都會為人工智能做出巨大貢獻,將來的無人駕駛車能夠識別出藍天下的白色卡車,就是因為你當年把它標出來了。’”
這種看似無意義的低效率工作應該由AI去做才符合我們對技術的認知,因為我們發展人工智能的初衷,就是為了解放生產力、提高生產效率。
最需要AI去做的事情,AI反而無能無力,而我們為了能讓AI取代勞動密集型的工作,得先為AI服務,付出密集、辛勤的勞動,這讓數據標注工作看上去有點賽博朋克、反烏托邦的“魔幻”感覺。
然而更令人覺得沮喪的是,人工去訓練AI依然存在很多問題。
此前,清華大學人工智能學院院長張鈸院士就提到純數據驅動的系統也存在很大問題——魯棒性很差,易受到很大的干擾。即便訓練出的系統模型準確率高達99%,但在實際應用中,仍然會犯很多“弱智”的錯誤。
這就陷入了死循環,人不可能像AI一樣,在工作中嚴格按照數據程序毫無瑕疵地完成工作,紕漏或者技術本身的問題,會導致人工智能的不準確性。最終,就在這個無限循環中不停地優化。
而且考慮到數據的隱私和公司的商業利益,同類型的數據是無法相互打通的,就像一位數據標注資深從業者所說, “以自動駕駛領域的數據標注為例,我用A公司的數據模型放到 B公司的設備上跑不通,甚至攝像頭換了一個角度、位置或分辨率,都跑不通?!?/p>
“有多少智能,就有多少人工。”這似乎是AI進化必須經歷的過程。
結語:
當然,最完美的情況應該是:AI能夠自己消化大量的數據自學成才。目前無需標注數據的無監督學習已經從實驗室走向應用,而類似的遷移學習算法也能減少一定的數據標注工作量。
Facebook人工智能研究部門負責人Yann LeCun曾經說過,AI的核心在于預測,AI的下一個變革是無監督學習、常識學習。研究人員正努力讓 AI 不依賴人類訓練,自己去觀察世界是如何運轉的,并學會預測。
所以理想環境下,可能我們探討的悖論過幾年或者十幾年就能完美解決了,這批為AI服務最終會被AI取代的人,也“功成身退”了。
評論
查看更多