在AI大行其道的當下,算法、算力與數據這驅動AI崛起的三大因素,誰將成為檢驗其能否產業化的試金石?答案必然是數據。
眾所周知,深度學習作為當前AI技術的研究前沿,其成功與否背后直接與產品落地直接掛鉤。從學術角度來講,深度學習的原理是將標注的數據特征反向輸送給機器,以實現機器智能這一目標。然巧婦難為無米之炊,沒有AI數據便無法應用更復雜的模型,亦無法得出效果更優的算法。
尤其隨著AI技術在行業內的落地應用,原有通用AI數據集很難對算法準確率與魯棒性能力實現進步一提升,因此破局之道全部寄希望在了場景化的高質量AI數據之上。
數據難求?高質量AI數據更可遇不可求
回歸本質來看,以近年來炒得最熱的CV+AI為例,其不僅可實現人臉識別,也可應用于養殖領域。而這套模式之所以能在其他領域跑通,原理在于技術本身是有共性的,差異取決于所訓練的AI數據樣本。
在這其中算法僅是一小部分,核心依舊離不開AI數據。誰能夠擁有高質量的還原落地場景的AI數據,誰便能快人一步實現產業化落地。
因此對于人工智能企業來說,優質AI數據的必要性毋庸置疑。企業深知AI數據的真正價值已不在數據本身之上,而在于背后所反映出的真實性與科學性。但數據難求,高質量的AI數據更是可遇而不可求,也正是基于這樣一個背景,數據標注行業開始出現在視野中。
然目前來看,早期的數據標注發展仿佛讓人們看到了十年前IT外包行業的縮影。層層眾包與轉包的服務模式,致使數據交付精度層次不齊、數據隱私無法保障等現象頻發,直接拉低了AI數據行業整體服務質量。
此外,過于依賴人力的標注方式,也讓各個環節暴露了大量弊端。如在語音轉寫類標注時,人類標注員很難在長時間下保持時刻專注。再比如機器視覺類項目中,一套項目至少涉及數以萬計的圖片標注工作,常會引發標注任務不夠細化、缺乏定制化標注能力等問題。而此時若投入大量人力,則又會產生極大成本負荷,外加中間商等各項因素的影響,久而久之讓行業進入了一個惡性循環當中。
云測數據服務成果發布?引領數據標注跨入高質量時代
反觀整個數據標注市場,雖有公開數據集、標注工具、以及半監督學習一類技術的存在,但對于現階段AI產品面臨落地的產業環境,沒有高質量還原場景的AI數據的支撐,想要產業落地無疑是空中樓閣。
正如行業流行的那句話所言——“前面有多少智能?后面就有多少人工”。因此如何將人類經驗與學習規則充分結合以獲取符合算法需求的高質量標注數據,如何制定標準審核流程和控制標注質檢成本等問題,既是擋在AI產業化前方的攔路虎,也是擺在高質量AI數據獲取面前的難題。
為解決行業存在的現實問題,助力企業占領未來發展高地。在9月6日的北京服貿會上,Testin云測旗下AI數據服務品牌——云測數據的服務成果正式發布,并向外界展示了最高交付精準度達99.99%這一傲人成果。
區別于傳統模式,云測數據以自建形式搭建了數據場景實驗室與數據標注基地來對相應AI數據進行生產。以標準化服務為抓手,在前期幫助客戶梳理更貼合實際情況的需求,試標驗收合格后開始大規模作業。作業提交后,還有三層質檢環節和抽檢環節來確保AI數據的高質量輸出,并有項目經理全程跟蹤數據交付的流程。通過這種服務模式來解決AI數據質量參差不齊這一詬病。
再者,過往數據標注人員常以單臺電腦部署軟件形式為主,這種工作模式基本毫無協同性可言,極大程度拖慢了人員效率與項目周期。而云測數據在AI數據生產中,設計了從創建任務、分配任務、標注流轉、到質檢/抽檢環節和最后的驗收等更完善的管理流程,每個環節有相應專業人員來把控數據標注的質量和時間節點,進行好上下游工作環節銜接,得以在保證質量的前提現下將效率最大化。
另一方面,與多數開源與在線標注工具相比,后者存在著極高的部署門檻與學習成本,如不同版本間的不同編譯與配置部署、標簽設置繁瑣、數據導出限制過多等問題。這對于技術驅動型的AI企業而言,將成為業務最致命的死穴。
而云測數據這套模式,全方位支持企業在文本、語音、圖像、視頻等各類AI數據處理需求,且已完成對智慧城市、智能家居、智能駕駛、智慧金融等不同行業的覆蓋。這種服務體驗,將企業精力重新聚焦在業務自身之上,從長遠來看也更符合當前降本增效的業務需求。
Testin云測總裁徐琨在采訪中指出:“為客戶降本增效,不斷為客戶創造價值,幫助客戶在這個充滿不確定性的時代,或保持優勢,或突圍而出,依然是我們的初衷。”
此外,考慮到不同業務類型不同敏感級別的數據隱私需求,云測數據亦設置了一系列嚴格措施。其中一條核心原則就是數據絕不復用,當AI數據合格交付后絕不留底。其二便是所有與云測數據進行數據采集的用戶都會簽訂數據授權協議,從來源上確保企業用于訓練的AI數據合法合規。并通過內部設定的數據隔離、質量保障等一系列數據安全流程和技術,從多個維度破解潛在的數據泄露風險。
高質量數據攻破AI行業天花板
復盤近年來AI發展,這個時代標志性技術,已然從學術界逐步走進了產業界中。雖然其催生出的大量新業態被看好,但真正能夠支撐落地的應用仍屬鳳毛麟角。
如近幾年炒的異常火熱的無人駕駛,之所以很難脫離測試道路,原因便在于機器對復雜道路的理解不盡人意,而究其根源依舊是高質量AI數據的稀缺。再如近期發表在《歐洲心臟雜志》上的一項AI看診新技術,之所以對其的描述仍為‘深度學習工具邁出的新一步’,問題本質仍出在精確度遠未達到推廣到臨床環境中所需水平方面。
不可置否,高質量AI數據已是AI能否實現產業化的關鍵。尤其在當前5G商用落地加速以及“新基建”的雙重帶動下,產業與經濟結構的調整升級、新舊動能穩步轉換推進已是大勢所趨。因此,云測數據最高交付精準度達99.99%的這一成果,必將成為AI產業打破自身天花板的一個全新變量。
正如Testin云測總裁徐琨所說:“效率的提升最終都是通過技術來實現的,新技術孕育著新機會。人工智能是劃時代的技術,我相信,在不久的未來,人工智能將成為像互聯網一樣的通用型技術,云測數據作為人工智能技術的AI數據服務提供商,將成為AI創新的土壤和支撐。”
責任編輯:pj
-
數據
+關注
關注
8文章
7031瀏覽量
89039 -
AI
+關注
關注
87文章
30896瀏覽量
269110 -
人工智能
+關注
關注
1791文章
47279瀏覽量
238511
發布評論請先 登錄
相關推薦
評論