繼 Google Scholar(Google 學(xué)術(shù)搜索)之后,Google 又為科研工作者推出了一款重磅產(chǎn)品—— Google Dataset Search(Google 數(shù)據(jù)集搜索)。
為什么說(shuō)這款產(chǎn)品如此重要?因?yàn)閿?shù)據(jù)從未如此重要。由于深度學(xué)習(xí)的興起,AI 研究員需要大量的數(shù)據(jù)來(lái)訓(xùn)練他們的模型,吳恩達(dá)就曾表示,深度學(xué)習(xí)像火箭,計(jì)算是引擎,數(shù)據(jù)是燃料。有時(shí)候,數(shù)據(jù)可能比算法更重要。
然而,數(shù)據(jù)集和相關(guān)數(shù)據(jù)往往分布在網(wǎng)上的多個(gè)數(shù)據(jù)存儲(chǔ)區(qū)中。在大多數(shù)情況下,搜索引擎既無(wú)法提供這些數(shù)據(jù)庫(kù)相關(guān)信息的鏈接,也不會(huì)將這些信息編入索引,這會(huì)導(dǎo)致數(shù)據(jù)尋找變得無(wú)比繁瑣,或者在某些情況下無(wú)法實(shí)現(xiàn)。
一些掌握了大量數(shù)據(jù)的互聯(lián)網(wǎng)公司也因此擁有很大的優(yōu)勢(shì),而高校的學(xué)者除了一些公開的知名數(shù)據(jù)集,想要擁有大量的數(shù)據(jù)則非常困難,因此 Google 的這款產(chǎn)品可謂是及時(shí)雨。當(dāng)然,其他需要各種數(shù)據(jù)的工作者也能從中受益。
Google Dataset Search 為用戶提供了能夠同時(shí)搜索多個(gè)存儲(chǔ)區(qū)的單個(gè)界面,希望借此改變用戶發(fā)布和運(yùn)用數(shù)據(jù)的方式。
現(xiàn)在,就讓我們來(lái)一起看下這款搜索工具。
與 Google Scholar 類似,Google Dataset Search 可方便用戶查找托管在任何位置的數(shù)據(jù)集,無(wú)論是出版網(wǎng)站、數(shù)字圖書館還是作者的個(gè)人網(wǎng)頁(yè)。
為了創(chuàng)建 Dataset Search,Google 還為數(shù)據(jù)集提供方制定了一套數(shù)據(jù)指南(https://developers.google.com/search/docs/data-types/dataset)。這些指南包括有關(guān)數(shù)據(jù)集的重要信息:數(shù)據(jù)集的作者,發(fā)布時(shí)間,數(shù)據(jù)收集方式,使用數(shù)據(jù)的條款等等。然后,Google 收集并鏈接這些信息,分析同一數(shù)據(jù)集的不同版本可能在哪里,并找到可能描述或討論這一數(shù)據(jù)集的出版物。
Google 的指南是基于一個(gè)數(shù)據(jù)集的開放標(biāo)準(zhǔn)(schema.org),任何發(fā)布數(shù)據(jù)的人都可以通過(guò)這種方式描述他們的數(shù)據(jù)集。
在這個(gè)新版本中,用戶可以找到很多環(huán)境和社會(huì)科學(xué)相關(guān)的數(shù)據(jù)集,以及其他學(xué)科的數(shù)據(jù),包括政府?dāng)?shù)據(jù)和新聞機(jī)構(gòu)提供的數(shù)據(jù),如 ProPublica。隨著越來(lái)越多的數(shù)據(jù)倉(cāng)庫(kù)使用 schema.org 標(biāo)準(zhǔn)來(lái)描述他們的數(shù)據(jù)集,Google Dataset Search 能夠搜索到的數(shù)據(jù)集的種類和覆蓋面將持續(xù)增長(zhǎng)。
目前 Google Dataset Search 已經(jīng)支持多種語(yǔ)言,筆者嘗試了下,除了英文,還支持中文。
我們先嘗試下英文搜索,如果你想分析天氣記錄,那么就可以在 Google Dataset Search 的輸入欄里嘗試輸入“daily weather”,結(jié)果如下圖所示:
可以看到,左邊欄呈現(xiàn)的是各種數(shù)據(jù)源,右邊則是相應(yīng)的介紹,包括數(shù)據(jù)集的名稱、下載鏈接、更新日期、提供者、說(shuō)明等等,非常清晰。
現(xiàn)在,我們來(lái)嘗試下中文,在搜索欄輸入“房?jī)r(jià)”,第一條就是中國(guó)房?jī)r(jià)的數(shù)據(jù)集,該數(shù)據(jù)集由 CEIC 提供,涵蓋的時(shí)間段從 2017年7月1日 —2018 年 6 月 1 日,算是非常新的數(shù)據(jù)了。
打開該數(shù)據(jù)集的鏈接,嗯,是個(gè)收費(fèi)網(wǎng)站。不過(guò),花錢能解決的事,總比毫無(wú)頭緒來(lái)得好。
Dataset Search 的發(fā)布凸顯了 Google 對(duì)數(shù)據(jù)集的重視。最近,Google 也對(duì)自家的 Google Search 也進(jìn)行了改進(jìn),使得用戶搜索結(jié)果中發(fā)現(xiàn)表格數(shù)據(jù)變得更加容易,不過(guò)該計(jì)劃更側(cè)重于新聞機(jī)構(gòu)和數(shù)據(jù)記者,而 Dataset Search 的受眾則更加廣泛。
Google 表示,這個(gè)項(xiàng)目能夠帶來(lái)下列好處:
a) 形成數(shù)據(jù)共享生態(tài)系統(tǒng),鼓勵(lì)數(shù)據(jù)發(fā)布者依照最佳做法來(lái)存儲(chǔ)和發(fā)布數(shù)據(jù);
b) 為科學(xué)家提供相應(yīng)平臺(tái),方便大眾引用他們創(chuàng)建的數(shù)據(jù)集,展現(xiàn)他們的研究成果所帶來(lái)的影響力。
當(dāng)然,Google Dataset Search 的搜索質(zhì)量取決于數(shù)據(jù)發(fā)布者,因此,如果大家都用開放標(biāo)準(zhǔn)來(lái)描述自己的數(shù)據(jù),那么搜索結(jié)果肯定會(huì)越來(lái)越好。
Google Dataset Search 目前仍處于測(cè)試階段,雖然支持中文搜索,但中國(guó)大陸的用戶想要使用依然需要“梯子”,不過(guò)這么好的工具,錯(cuò)過(guò)豈不可惜!
針對(duì) Google Scholar,2014 年 6 月百度上線了“百度學(xué)術(shù)”,不過(guò)大家似乎仍對(duì) Google Scholar 情有獨(dú)鐘。這次,百度怎么看?
-
Google
+關(guān)注
關(guān)注
5文章
1766瀏覽量
57623 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1208瀏覽量
24739
原文標(biāo)題:Google推出數(shù)據(jù)集搜索!百度,你怎么看?
文章出處:【微信號(hào):rgznai100,微信公眾號(hào):rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論