Sicara 是一家從事敏捷數據開發的公司,總部位于巴黎,他們精心挑選了上個月最受歡迎的 10 月人工智能博文,包括 Google 、MIT 等展示最前沿的 AI 技術、實用的計算機視覺工具包、對人工智能未來的探索和思考,以及歐盟新出臺的隱私法案對全世界的影響等等,現在我們一起來瀏覽下這些精彩內容。
1?、“輸出質量是由輸入質量決定的”(garbage in, garbage out)
編者注:garbage in, garbage out,縮寫為 GIGO,是計算機科學與信息通信技術領域的一句習語,譯為“垃圾進,垃圾出”,說明了如果將錯誤的、無意義的數據輸入計算機系統,計算機自然也一定會輸出錯誤、無意義的結果。同樣的原則在計算機外的其他領域也有體現。
盡管大多數機器學習研究人員都在致力于改進他們的模型,但特斯拉的數據科學家卻花費 75% 的時間試圖改進他們的數據集。作者建議你在知名的模型中,快速選擇一個模型,然后專注于更豐富、更高質量的訓練數據。此外,他還提供了不斷改進這些珍貴的數據集的一些技巧。
博文:《為什么要改進訓練數據,如何改進?》
Why you need to improve your training data, and how to do it
2?、35 億張照片
Facebook 似乎很清數據的力量。正如本文所解釋的那樣,該公司使用了一種智能方法來收集大量的數據,用于訓練對象識別模型。也許你也曾經為這個數據集做過貢獻,因為它包含了人們在 Instagram 上發布的所有圖片,并用它們的 hashtags 作為標簽。
當然,盡管這種方法既聰明又高效,但它還是會引發一些隱私問題。并不是所有人都愿意 Facebook 的數據科學家查看他們的照片。
博文:《Facebook 正在使用數十億張 Instagram 圖片來訓練人工智能算法》
Facebook is using billions of Instagram images to train artificial intelligence algorithms
3?、?GDPR 與機器學習
談到隱私問題,5 月發生了一件重要的事情:5 月 25 日,歐盟新出臺的隱私法規《通用數據保護條例》(General Data Protection Regulation,GDPR)開始生效。許多人擔心這些新法規會對數據科學界產生影響,尤其是機器學習。本文試圖回答有關這個主題最常見的問題。
不過,有兩個問題仍未得到完整解答:
在何種程度上,公司將不得不“解釋”算法如何服務用戶?
人們是否有能力要求公司不要用他們的個人數據來訓練他們的算法?
博文:《GDPR將給機器學習帶來什么影響?》
How will the GDPR impact machine learning?
4、 人工智能記者
如果我告訴你,這篇最好的人工智能文章是用算法撰寫的,你會相信么?別擔心,事實并非如此。但是這篇文章讓我想到,總有一天它會成為可能。Salesforce 開發了一種新算法,能夠提煉出任何長篇文檔的中心思想,而且非常連貫。
Salesforce 數據科學家使用的是強化學習技術,根據 ROUGE 自動評估指標對輸出摘要進行評分。
譯注:ROUGE,Recall-Oriented Understudy for Gisting Evaluation,是評價機器學習系統的指標之一,用于評測自動摘要。
博文:《一種很好地總結長篇文檔的算法》
An Algorithm Summarizes Lengthy Text Surprisingly Well
5?、?The Book of Why
相關性并不意味著因果關系,這就是從數據中推斷因果關系往往很棘手的原因。但是圖靈獎得主 Judea Pearl 想接受這個挑戰。他剛剛寫了一本書 The Book of Why: The New Science of Cause and Effect。
正如我在這篇博文讀到的,Judea Pearl 對機器學習的最近進展表示失望,這些進步“只是曲線擬合”。他認為,學習人工智能來找到原因是接近人類智能的真正下一步。
譯注:Judea Pearl 是人工智能領域的先驅、貝葉斯網絡之父。他認為目前人工智能深陷于概率關聯的泥潭,而忽視了因果,研究者應該研究因果,這或許是實現真正智能的機器的可能路徑。
博文:《要實現真正智能的機器,要教會它們因果關系》
To Build Truly Intelligent Machines, Teach Them Cause and Effect
6、?一個新的深度學習計算機視覺工具包
這篇 MXNet 博文的作者解釋道,他和他的團隊在試圖復制論文的實驗結果時遇到了很多問題。為了解決這一問題,他們開發了 GluonCV,這是一個新的工具包,允許任何進入深度學習領域的新手嘗試使用最近重要論文中的預訓練模型。
GluonCV:https://github.com/dmlc/gluon-cv
對于初學者來說,學習這些概念很有用;而且,對于工程師來說,想要快速測試新模型以確定是否適合他的問題的話,這些也是非常有用的。
博文:《GluonCV:用于計算機視覺的深度學習工具包》
GluonCV?—?Deep Learning Toolkit for Computer Vision
7?、?“OK Google, 給我約個理發師!”
5 月最令人印象深刻的消息之一,就是 Google 展示了他們稱之為 Google Duplex 的新技術,這個智能助理可以為了通知預定服務而給餐廳或商店打電話。你可能會想了解一下這個深度學習算法是如何工作的。幸運的是,Google 在其官博上解釋了這一點。
博文:《Google Duplex:用于通過電話完成實際任務的人工智能系統》
Google Duplex: An AI System for Accomplishing Real-World Tasks Over the Phone
8?、不依賴 3D 地圖的自動駕駛技術
到目前為止,自動駕駛汽車一直依賴于密集標注的 3D 道路地圖。這些地圖被用來確定汽車在這些道路上的精確軌跡。這種限制使得在人跡罕至的鄉村道路上開車變得非常困難。
但正如這篇文章所寫的,MIT 的研究人員首次構建了一個不需要這種特殊地圖的自動駕駛系統原型。它只使用標準的不精確地圖(來自 Google 地圖)和傳感器來檢測道路的彎道。
博文:《MIT 研制了一款自動駕駛騎車,可在未繪制地圖的鄉村道路上行駛》
MIT built a self-driving car that can navigate unmapped country roads
9?、?Google 的爭議
正如《紐約時報》在這篇文章中所說,5 月有一個關于 Google 項目的爭議,引發了公司內外的爭論。這個 Google 和五角大樓合作的計算機視覺項目,稱為 Maven,包括分析無人機拍攝的圖像,以便能夠讓一些攻擊實現自動化。
Google 數千名員工強烈反對公司參與軍事技術,已經簽署了一份請愿書以阻止該項目。
博文:《五角大樓合同如何成為Google的危機》
How a Pentagon Contract Became an Identity Crisis for Google
10?、十本免費的必讀書籍
讓我們以最佳選擇來總結這個“五月人工智能精選”。我想推薦的最后一篇博文,介紹了十本關于機器學習和數據科學的有用書籍,它們可以在網上免費獲取!如果你想學習或者提高 Python、神經網絡、數據挖掘或貝葉斯統計,你可以在這些書籍中找到所需的一切。
博文:《十本機器學習與數據科學領域的免費必讀書籍》
10 More Free Must-Read Books for Machine Learning and Data Science
-
Google
+關注
關注
5文章
1766瀏覽量
57621 -
人工智能
+關注
關注
1792文章
47438瀏覽量
238984
原文標題:五月人工智能博文Top10
文章出處:【微信號:AI_Thinker,微信公眾號:人工智能頭條】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論