根據Gartner公司的數據,到2020年將會有200億臺網絡連接設備投入使用,這些設備每年將產生超過500 ZB(zettabytes)數據,也就是需要5000億個1TB硬盤才能放下,隨著科技的進步,預計這一數字將繼續大幅增長。對于已經進入物聯網行業的70%的組織來講,這些數據代表了其獨一無二的競爭優勢。這些數據可以幫助企業獲得有價值的信息用于開發創新的AI應用程序,這對于企業來說是一個巨大的機會。
事實證明,物聯網數據令數據科學家、機器學習工程師和企業領導者一樣興奮。從醫療保健和農業到教育和交通,蓬勃發展的物聯網領域和其他領域一樣是多元化的,涵蓋了新信息的發現和決策控制。物聯網數據科學打開了創造新數據產品的大門。本文將討論一些關于物聯網數據科學的具體特征。
數據注意事項
目前,物聯網成為了新數據的重要來源之一,物聯網數據或許可以被看做大數據的縮影。如果我們只看一臺設備產生的數據,那么我們只需要處理很少的數據就可以了(即使這些數據也一直在變化)。但無數的分布式設備會產生連續的數據流,所以物聯網會產生大量的數據。物聯網設備可以收集從音頻到傳感器數據等各種類型的信息,并全面覆蓋整體數據格式的多樣化。
但是物聯網數據也存在一些獨一無二的特性,使其開發具有挑戰性。由于采集和傳輸過程中出現錯誤往往會產生噪音,這使得構建、清理和驗收數據的過程成為機器學習算法發揮的關鍵步驟。本質上來講,物聯網數據也是高度可變的,這是因為跨各種數據收集組件的數據流中存在巨大的不一致性,而且存在時間模式。不僅如此,數據本身的價值在很大程度上取決于底層機制,數據捕獲的頻率以及處理方式。即使來自特定設備的數據被認為是值得信賴的,我們仍需要考慮到即使在相似條件下不同設備的行為也可能不同。因此在收集培訓數據時捕捉所有可能的情景在實踐中是不可行的。
半監督學習
然而,物聯網數據的一個最顯著的特征在于其粗糙性:因為物聯網設備通過各種復雜的傳感器收集數據,所產生的數據通常非常原始。這意味著,在提取業務價值并構建強大的AI應用程序之前,主要的數據處理是必要的。實際上,將有意義的信號從噪聲中分離出來并將這些非結構化數據流轉化為有用的結構化數據,是構建智能物聯網應用程序最重要的一步。
大量物聯網應用需要使用監督機器學習,這是一類機器學習算法,需要在模型可以被訓練之前標記數據。由于手動標記大型數據集是一項耗時、容易出錯且價格昂貴的任務,因此機器學習專業人員通常首先轉向標記為開源的數據集,或者從少量數據開始標記。然而,物聯網數據的難點來自其特殊性:因為這些數據通常是獨一無二的,所以不能保證現有的開源數據集隨著可獲得,并且工程師們有必要標記他們自己的數據。這正是高品質,適應性強的眾包標簽平臺所能提供的幫助。
但是,歸因于物聯網數據的可變性,標記一個小的隨機樣本可能不夠。考慮到這一點,這些是在算法訓練中利用標記和未標記數據的半督查學習策略的完美環境。特別是主動學習是一種非常合適的方法,允許機器學習科學家獲得類似的算法精確度,其中算法被允許向群眾查詢智能選擇的訓練實例的子集的標簽,是標簽成本的一小部分。
群體感知
在機器學習方面,物聯網發展的一個非常有趣的方面是群體感知的出現。群體感知包括兩種形式:自愿的,當用戶自愿提供信息時,以及在沒有明確干預用戶的情況下自動收集數據。這是物聯網數據不僅可以促進物聯網應用程序的開發或改進的一種方式,而且還可以用作其他非物聯網應用程序的輸入。
物聯網實際上允許以前所未有的方式收集非常獨特的數據集。由于每個設備生成的數據通常都是人為的,因此用戶可以標記或驗證它。收集最接近用戶位置的數據也變得可能:這正是Google要求用戶拍攝他們正在用餐的餐廳的照片,或者回答關于便利設施的一些問題的目的。這是第一次可以以大數據規模收集人工生成的數據。
-
物聯網
+關注
關注
2911文章
44824瀏覽量
375122 -
機器學習
+關注
關注
66文章
8428瀏覽量
132837
原文標題:物聯網機器學習的機遇和挑戰
文章出處:【微信號:SSDFans,微信公眾號:SSDFans】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論