數(shù)據(jù)標(biāo)注是大多數(shù)人工智能的基礎(chǔ),它決定了機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型的質(zhì)量。今天的數(shù)據(jù)呈現(xiàn)指數(shù)級(jí)的爆發(fā),比如僅在2018年,就產(chǎn)生了超過(guò)30 ZB的數(shù)據(jù)。而在在任何人工智能項(xiàng)目中,對(duì)于數(shù)據(jù)科學(xué)家而言,數(shù)據(jù)問(wèn)題都是其中的癥結(jié)所在。
什么是數(shù)據(jù)標(biāo)注?
訓(xùn)練機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型,需要豐富的數(shù)據(jù),以便將其用于部署,訓(xùn)練和調(diào)整模型。訓(xùn)練機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型需要大量經(jīng)過(guò)仔細(xì)標(biāo)注的數(shù)據(jù)。標(biāo)注原始數(shù)據(jù)并準(zhǔn)備將其應(yīng)用于機(jī)器學(xué)習(xí)模型和其他AI工作流,被稱為數(shù)據(jù)標(biāo)注。根據(jù)相關(guān)統(tǒng)計(jì),數(shù)據(jù)整理在AI項(xiàng)目中消耗了80%以上的時(shí)間。
數(shù)據(jù)如何標(biāo)注?
如今,大多數(shù)數(shù)據(jù)都沒(méi)有標(biāo)注。帶標(biāo)簽的數(shù)據(jù),意味著標(biāo)注或注釋目標(biāo)模型的數(shù)據(jù),以便可以預(yù)測(cè)。通常,數(shù)據(jù)標(biāo)注包括數(shù)據(jù)標(biāo)注,注釋,審核,分類,轉(zhuǎn)錄和處理。
標(biāo)注的數(shù)據(jù)突出顯示某些特征,并根據(jù)這些特征對(duì)其進(jìn)行分類,可以通過(guò)模型分析其模式以預(yù)測(cè)新的目標(biāo)。例如,對(duì)于自動(dòng)駕駛汽車中的計(jì)算機(jī)視覺(jué),AI專業(yè)人員或數(shù)據(jù)標(biāo)注者可以使用視頻標(biāo)注工具來(lái)指示路牌的位置,并通過(guò)行人和其他車輛的位置來(lái)訓(xùn)練模型。
數(shù)據(jù)標(biāo)注中包含的一系列任務(wù):
1.豐富數(shù)據(jù)的工具
2.質(zhì)量保證
3.流程迭代
4.管理數(shù)據(jù)標(biāo)簽
5.培訓(xùn)新的數(shù)據(jù)標(biāo)簽
6.項(xiàng)目計(jì)劃
7.成功指標(biāo)
8.流程運(yùn)作
AI專業(yè)人員的數(shù)據(jù)標(biāo)簽挑戰(zhàn)?
在典型的AI項(xiàng)目中,專業(yè)人員在進(jìn)行數(shù)據(jù)標(biāo)注時(shí)會(huì)遇到以下幾個(gè)方面的挑戰(zhàn)。
1.數(shù)據(jù)標(biāo)簽質(zhì)量低下。數(shù)據(jù)標(biāo)簽質(zhì)量低可能有很多原因。其中最突出的原因之一是任何企業(yè)或工作流程確實(shí)三個(gè)決定因素:人員,流程和技術(shù)。
2.無(wú)法擴(kuò)展數(shù)據(jù)標(biāo)注操作。當(dāng)數(shù)據(jù)量不斷增長(zhǎng)并且業(yè)務(wù)或項(xiàng)目需要擴(kuò)展其容量時(shí),由于大多數(shù)企業(yè)都在內(nèi)部標(biāo)記數(shù)據(jù),因此它們通常也難以擴(kuò)展其數(shù)據(jù)標(biāo)注任務(wù)。
3.難以承受的成本和不存在的結(jié)果。企業(yè)和AI項(xiàng)目經(jīng)理通常雇用高薪數(shù)據(jù)科學(xué)家和AI專業(yè)人士或一組業(yè)余人員來(lái)處理數(shù)據(jù)標(biāo)簽,而企業(yè)需要承擔(dān)高昂的人工成本,當(dāng)然企業(yè)也會(huì)面臨數(shù)據(jù)標(biāo)簽不確定所帶來(lái)的問(wèn)題,所以合適的專業(yè)人員至關(guān)重要。
4.質(zhì)量保證。進(jìn)行質(zhì)量檢查可以為數(shù)據(jù)標(biāo)注過(guò)程提供重要價(jià)值,尤其是在機(jī)器學(xué)習(xí)模型測(cè)試和驗(yàn)證的迭代階段。
誰(shuí)來(lái)標(biāo)注數(shù)據(jù)?
相關(guān)調(diào)查顯示,2019年,企業(yè)在數(shù)據(jù)標(biāo)簽上的支出超過(guò)17億美元。到2024年,這一數(shù)字將達(dá)到41億美元。進(jìn)行數(shù)據(jù)標(biāo)注工作,除了雇傭?qū)I(yè)的數(shù)據(jù)科學(xué)家和AI專家之外,還可以考慮通過(guò)其他方式。
雇員。這包括雇用包括AI專業(yè)人員在內(nèi)的全職或兼職員工,參與AI項(xiàng)目的各個(gè)方面,其中之一是數(shù)據(jù)標(biāo)注。
托管團(tuán)隊(duì)。他們是經(jīng)驗(yàn)豐富,且訓(xùn)練有素的數(shù)據(jù)標(biāo)簽團(tuán)隊(duì)。
承包商。他們包括自由職業(yè)者和臨時(shí)工。
眾包。企業(yè)可以使用第三方平臺(tái)一次性尋找數(shù)據(jù)標(biāo)注團(tuán)隊(duì)。
-
人工智能
+關(guān)注
關(guān)注
1792文章
47397瀏覽量
238902 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8423瀏覽量
132761 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5507瀏覽量
121265
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論