無論怎樣,我們不得不承認,在我們所處的當今時代,技術發展對現代生活有著決定性的影響。
但令人喜憂參半的是,科技變化如此之快,我們幾乎無法跟上它的腳步,更不用說預測未來了。 其中發展最快速,影響力最大和最吸引人的技術進步之一就是圖像識別。
什么是圖像識別?
圖像識別是計算機視覺的機制之一,而計算機視覺是人工智能的一個分支。
正如我們在AI、機器學習與深度學習的區別一文中提到的那樣,人工智能(也稱AI)是一種能夠模仿人類特征并勝任通常需要人類智能才能完成的任務的計算機系統。
為了讓AI更有說服力,我們需要所謂的“計算機視覺”。根據Venture Beat的說法,計算機視覺是“計算機獲取,處理和分析主要來自視覺提示或熱傳感器,超聲波等類似來源的數據。
簡而言之,計算機視覺使得機器能夠“看”事物——甚至包括人類無法看到的事物。例如,位于匹茲堡(美國)的卡內基梅隆大學實際上正致力于研究名為“呼吸凸輪”的計算機視覺應用。該應用配備了四個云連接攝像頭,可以讓用戶監控和記錄空氣污染,甚至可以追溯到污染的源頭。是的,它“看到”了空氣質量。
然而,要想讓機器做到人類無法做到的事情,我們必須首先使機器能夠做到人類可以做的事情:看到并標記物體和生物。這是圖像識別的主要功能。
Tensorflow是一個由Google開發人員創建的開源軟件庫,它將圖像識別定義為計算機將圖像或視頻分解為像素,識別形狀,以便“看到”這些圖像的內容,并對它們進行分類的過程。
例如,股票網站每天都有數百萬張圖片上傳和數十億的搜索量。通常,網站建設者必須為他們上傳的每張照片添加標簽和說明,以便與用戶的搜索詞匹配。通過安裝圖像識別應用,一旦圖像傳輸到服務器,機器就可以自動識別圖像中的人物或物體。然后,它可以自動對圖像進行描述,比人類的描述更加具體,從而優化搜索引擎并改善用戶體驗。
如何實現圖像識別?
目前,深度學習是最有可能讓機器實現“看”的能力的技術。簡單地說,深度學習就是一種機器學習框架,通過模仿人類的神經元系統,為計算機提供自主學習能力。因此,計算機可以準確識別圖片中的內容,而無需根據指令安裝手動編碼的軟件——但它需要大量數據才能完成識別。
因此,全世界都在致力于開發大量數據,其中最典型的例子就是ImageNet和PASCAL數據集。經過多年的努力,這些龐大且免費的數據集包含數百萬張圖像,每張圖像都標記有圖像內容相關的關鍵字
1. ImageNet:由普林斯頓大學的研究人員于2009年創建,這個可視化數據集擁有從Flickr等搜索引擎收集的超過1400萬個URL圖像。在數據集創建過程中,工作人員和志愿者對提交的圖片進行了詳細地注釋,并將其分類為約1000個對象類。
2. PASCAL:PASCAL由歐盟國家各大學聯合創建,與ImageNet數據集相比,PASCAL相形見絀 —— 僅有20個對象類,共20,000個訓練圖像。
正如您可能已經從兩者在類數量上的巨大差異中猜到的那樣,PASCAL的分類更具通用性。相反,ImageNet注重圖像識別技術發展一個關鍵特征:類間差異性——機器能夠識別兩張包含同一物種或物體的不同類型的圖像,因此圖像被分在不同的類別中。例如,雖然同一圖片在PASCAL中僅屬于“狗”這一類別,但它在ImageNet中可能被分類為“柯基犬”,“牧羊犬”或“哈巴狗”等類。
為什么要投資圖像學習?
看起來每個人都在這樣做,不是嗎?因為他們確實在這樣做。
2012年,Qualcomm Connected Experiences公司首次推出Vuforia軟件平臺。該平臺利用圖像識別技術提供大量的AR和VR相關功能,使得移動應用程序開發人員能夠隨意擴展視野。
Facebook于2016年開始幫助盲人“看”照片和圖像。通過使用圖像識別,Facebook IOS應用程序將為每張照片生成描述,并為用戶大聲朗讀。
在今年早些時候,谷歌 - 世界上最值得關注的人工智能公司之一 推出了Cloud AutoML--一種旨在簡化AI在企業運營中的應用的工具。 Cloud AutoML首先啟動了圖像識別功能,允許Google用戶拖入圖像并教會用戶系統在Google云上識別圖像。迪士尼和Urban Outfitters等公司已將其應用于網站搜索,使結果更符合用戶需求。
然而,人工智能應用并非大公司的特權。根據彭博首席經濟學家McDonough的分析,自2015年中期以來,提及“AI”或“AI公司”的企業財報電話會議越來越多。事實上,80%的受訪公司表示在生產中應用了AI應用程序。
為什么有數十億美元投入到這項技術? 我們的猜測是圖像識別潛力巨大。
圖像識別是一個非常抽象的領域。但是,當應用于具體情境時,其改變企業的潛力是無可辯駁的。讓我們看看各個行業和企業流程中圖像識別的幾種潛在應用:
1. 醫療保健:圖像識別最突出的能力之一是協助創建增強現實(AR)——一種“將計算機生成的圖像疊加在用戶對現實世界的視角之上”的技術。如果給人工智能提供AR技術和包含疾病視覺提示的數據集,你將有一個永生難忘的醫療助理。 有了它,醫生就可以在檢查期間獲得患者傷口的的實時詳細診斷建議或醫療文件。
2. 教育:圖像識別可以讓有學習困難或身體殘疾的學生以他們能夠感知的形式獲得所需的教育。計算機視覺支持的應用程序可以提供文本到語音和圖像到語音功能,幫助視力受損或有閱讀障礙的學生“閱讀”所提供的內容。
3. 食品和飲料:通過使用圖像識別,智能手機上的簡單應用可以獲得Instagram和Facebook上圖像的視覺提示,分析它們并提供實時數據。 例如,根據這些照片,該應用程序可以告訴你新加坡的某家咖啡館是您家人和朋友經常去的地方,還是一個舉辦瘋狂聚會的場所。通過這種方式,用戶可以一目了然地獲得本地定制方案,而餐廳也可以有效地接觸到目標受眾。
4. 電子商務:想象一個用戶在街上看到他們想買的東西,但他們找不到人問在哪里可以買到它,因此他拍了一張照片。然后,該用戶將其上傳到配備圖像識別技術的電子商務網站。算法本身可以“看”圖片,掃描數百萬個可選項,并推薦一個看起來與客戶所尋求的相同,至少是最接近的選項。這正是Savvycom在2018年3月創建新AI Lab時的初衷。現在,我們的工程師正在研發人工智能視覺搜索工具,以利用擁有數千種產品的大型電子商務數據集,擴大電商體驗。
5. 企業流程管理:先進的圖像識別系統還可以在企業經營時協助識別。例如,機器可以進行面部識別,這將取代傳統身份證,來確定某人是否被授予執行某項任務的權利:如訪問文件存儲系統,參加會議或檢查工作。然而,我們不得不承認,由于個人情感、化妝等因素的影響,“看”和“識別”人臉比識別物體要復雜得多。因此,Savvycom的目標是盡快在即將開展的項目中解決這個問題。
圖像識別技術發展面臨哪些障礙?
圖像識別并非一個新領域,但放眼全局,它仍處于早期階段。就像任何一個典型的成長中少年一樣,在適應現實世界時也存在問題。
還記得“80%的組織表示他們在生產中應用了AI應用程序”嗎?在這些應用了人工智能技術的公司中,約有33%的公司表示采用人工智能技術的最大障礙是不穩定性 - 不成熟且未經證實。34%認為很難招聘到合格的工程師,40%表示信息技術基礎設施建設阻礙了人工智能技術的引進,且很容易對公司的財務造成不利影響。
資金也是一個重要影響因素。由于用于數據流編程的開源軟件庫越來越多,如Microsoft CNTK和Accord.Net,機器學習愛好者能夠以極低的成本進行研究和學習。然而,并非所有問題都能得到解決,因為并非一切都是已知的。為了實現產品創意,要平衡預算,公司仍有很長的路要走。
有一種解決方案可以解決許多上述問題:外包。IT外包公司專注于技能和專業知識,能以可預測的管理成本提供高端工具和最佳實踐操作。簡而言之,他們知道自己在做什么。那是他們的工作。
總而言之,圖像識別是計算機視覺時代到來的早期征兆。無論它將如何應用或將應用于哪些行業,圖像識別技術永遠不可能孤立發展。只有通過訪問更多圖片,實時數據,花費更多的時間和精力才能使其更加強大。只有認識到這一點,并充分利用這些聯系的企業才可能在未來取得成功。
-
圖像識別
+關注
關注
9文章
520瀏覽量
38273 -
人工智能
+關注
關注
1791文章
47279瀏覽量
238499 -
計算機視覺
+關注
關注
8文章
1698瀏覽量
45993
原文標題:圖像識別技術:究竟能在商業世界掀起多大波瀾?
文章出處:【微信號:robot-1hjqr,微信公眾號:1號機器人網】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論