在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

如何很容易地將數據共享為Kaggle數據集

8g3K_AI_Thinker ? 來源:未知 ? 作者:李倩 ? 2018-06-29 15:06 ? 次閱讀

Kaggle,對于很多學習并從事數據科學和機器學習的同學們來說應該一點也不陌生。除了每年舉辦一次的 Kaggle 競賽被大家廣泛關注著,相信老司機們更是經常使用 Kaggle 的數據集并在上面進行實踐練習。李飛飛也對 Kaggle 評論道:“Kaggle 是搜尋、分析公共數據集,開發機器學習模型,和提高數據科學專業水平的最佳場所。” 去年 Google 收購 Kaggle ,并提出 “推動 AI 技術的分享和推廣” 的使命。

在研究和工業界中,除了提升模型能力外,高質量的結構化數據對結果也會產生不可忽視的影響。因此,人工智能頭條今天特別給大家分享一篇在 Kaggle 上發表的關于共享數據集收集工作的困難和重要性的文章,希望今后可以有更多的數據集被收集與共享。文章的最后還為大家分享了關于 Kaggle 搜索的Tips,希望對大家的學習和使用數據集有所幫助。

▌前言

本文由斯坦福大學研究計算和斯坦福醫學院的研究軟件工程師Vanessa Sochat 撰寫。

我們都知道,數據共享是一件很難的事,但在發現與獎勵方面具有很大的潛力。一個典型的 “共享操作” 可能看起來像是在移動硬盤上傳遞信息,將壓縮檔案放在某個大學或云服務器上,或批量存儲在一個安全的大學集群中。這是最佳方法嗎?這是容易的事嗎?要回答這些問題,首先考慮一下數據采集的可能經歷的旅程。它看起來像下面這樣:

因為數據的生成更像是一個流,這一過程流經常是周期性的,數據從步驟 1 到 步驟 6 的過程中停止的唯一原因就是我們決定停止收集。在最理想的情況下,我們希望將這些步驟完全自動化。第 1 步 我們可能是在 MRI 掃描儀上生成圖像,第 2 步可能是用自動化腳本將初始文件格式轉化為研究人員所需的格式,第 3 步移動到專用集群存儲,第 4 步用于研究組進行使用,第 5 步和第 6 步 (如果兩步全部發生)是額外的工作,進行再次處理并將數據傳輸到共享位置。

通常我們在第 4 步時就停止了,因為進行到此處已經可以滿足實驗室的需求,分析完成并寫入文件。有點諷刺的是,在第 5 和 6 步有可能會開啟潛在的發現之門。但不言而喻的是,如果我分享了我的數據集,但你先發布,那么我就輸了。數據就像橙子一樣,在把它的所有汁液榨干之前,我當然不想分享出去。但是,如果共享數據集本身可以生成一篇論文(或者類似的東西),并且,如果步驟4和步驟5很容易,我們就將會有更多的數據共享。這也是我今天要討論的主題,雖然沒有可用的生產解決方案,但我將展示如何很容易地將數據共享為 Kaggle 數據集。

▌動態數據

之前我談到了關于living data的想法,概括的講因為新數據的出現,我們可以更新我們對世界的理解,關于有趣問題的答案。知識表示為靜態PDF還不夠好,因為它只表示了一個時間點。相反,動態數據證實了我們積累的用來證實或否認假設的,知識是一種有生命的、不斷變化的東西。為了使這個充滿生機和變化的東西成為現實,要求提供時需要很容易。

現在,共享數據是在發布過程之后的手工操作。許多期刊已經鼓勵或要求進行數據共享,研究人員可以把某個時間點的數據集上傳至不同的平臺。我不認為這是了解世界的最佳方式,但是這種做法總比什么都不做好。我們不應該使用靜態文章,而應該使用數據提要,這些數據代入算法中并得到新的答案。我們希望數據共享在數據生成時可以自動進行,并且對所有想要研究它的研究人員開放。就目前而言,這可能是一個過于崇高的目標,但我們可以想象在兩個極端之間有可能會發生什么。

一個自動生成和共享數據集的簡單管道又是怎么樣的? 可能像下面這樣:

第 4 步到第 6 步仍然會發生(研究人員正在做分析),但不是有一組人渴望得到這些數據,而是為了有成千上萬的人可以使用它們。不同的是我們在步驟 3 中添加了一個助手,即持續集成,用以簡化處理和共享數據的過程。我們通常認為持續集成(CI)用于測試或部署,但它也可能是數據共享的有用工具。因此我們把這個概念叫做"連續數據"。一旦數據被處理并傳輸到研究組的存儲中,它也可能具有這個連續的數據步驟,將其打包以便共享。

▌Kaggle API

雖然一個更大的、機構層面的努力是理想的,但與此同時,我們也可以利用開源,免費使用Kaggle 這樣的資源。我認為 Kaggle 有可能做 Github 在早期科學重現性方面所做的事情。如果共享數據集既簡單又有趣,有潛在的回報,Kaggle 將會對規模化的發現和協作產生影響。但我們需要一個開始!我決定從顯示我可以使用的 Kaggle API 來上傳數據集開始。它在 Web 界面中很容易實現,利用命令行也很容易實現。簡單來說,我們需要的只是一個包含數據文件和元數據(json文件)的目錄,我們可以將API客戶端指向該目錄。例如,這是我上傳的一個數據集:

datapackage.json 描述正在上傳的內容

那么,分享你的數據集供給他人使用和發現有多難呢?你可以下載一個文件證書來認證服務。然后把文件(.tar.gz or .csv)放入文件夾中,創建一個 json 文件,并將工具指向它。這些操作很簡單,你幾乎可以不用任何額外的幫助就完成所有這些事情。將這樣的腳本插入到一些連續集成中,以便在將數據集添加到存儲時更新數據集。

▌Tools

在這里我創建了一個 Docker 容器,提供了一個之前與 Kaggle API 交互并生成一些數據集的簡短的示例。我在這里介紹一下腳本的基本邏輯。Kaggle 命令行客戶端在很多任務上都做得很好,但是作為一名開發人員,我希望更多地控制元數據規范和文件的創建。我還希望對它進行 Dockerized,這樣我就可以執行一個與主機隔離的創建操作。

▌創建容器

此映像提供在 Docker Hub 上,你也可以自己構建:

我沒有將創建腳本公開為入口點,因為我希望這是一個“shell到容器中,并了解發生了什么”的交互,你可以這樣做:

▌創建數據集

create_dataset.py 腳本位于工作目錄中,此方法接收您希望生成數據集的參數。你可以不帶參數運行該腳本來查看細節:

對于這篇文章,更容易看到一個例子,在 /tmp/data/ARCHIVE,我有我的數據集文件(.tar.gz files),所以我首先準備了一份空白的完整路徑列表:

然后我想把它們上傳到一個叫做 vanessa/code-images.命令行如下:

上述涉及的參數說明如下:

關鍵字:以逗號分隔的關鍵字列表(無空格!)

文件:要上傳的數據文件的完整路徑

標題:數據集標題(有空格需要加上引號)

命名:數據集本身的名稱(不能包含空格或特殊字符以及引號)

用戶名:你的 kaggle 用戶名,或數據集所屬組織的名稱

接下來將會生成一個包含數據包的臨時目錄:

然后將文件添加到其中,例如,這是我的臨時文件夾的結果:

回顧上述過程,我不需要在此復制文件,因為一般我不喜歡對原始數據執行任何類型的操作(以防出錯)。然后,該工具將顯示元數據文件(上面已經顯示過的文件),然后啟動上載。此過程需要一些時間,完成后會顯示一個 URL!

重點提示!有一些后期處理發生,這可能需要很多額外的時間(考慮到上傳的大小,這對我來說確實如此)。我的數據集實際上直到第二天早上才存在于給定的 URL 中,所以這個過程應該需要耐心。在完成之前,你會得到一個 404。你可以去跑步,或者今天就到此為止。

機構需要優先考慮數據,并幫助研究人員管理自己的數據。研究者應該能夠得到支持來管理他們的數據,然后讓它以編程的方式訪問。這必須超越傳統庫提供的 “歸檔”,深入研究api、通知、部署或分析觸發器。雖然我們沒有這些生產系統,但一切都是從簡單的解決方案開始的,以便輕松創建和共享數據集。我的設想是,在進行計算的地方 (我們的研究計算集群)和數據存儲的地方(以及通過上載或API自動共享的地方)之間建立牢固的關系。類似這樣:

通知的范圍可以從任何地方發出:

(1)進入一個提要以告訴另一研究人員新數據;

(2)觸發 CI 作業從存儲重新上載到共享位置;

(3)觸發某個容器的新版本的構建和部署,該容器將數據作為依賴項

▌What We Need:數據工程師 & 協作平臺

一個機構需要分配資源和人員來幫助研究人員提供數據。我相信,在未來,研究人員可以通過協作平臺,通過其他研究人員提供的數據源,共同合作進行研究。

更多內容可訪問原文鏈接

http://blog.kaggle.com/2018/06/21/open-source-datasets-with-kaggle/

通過上面的介紹,大家肯定已經感受到收集數據集這項工作的艱難和重要意義。而作為學習者,Kaggle,一個神一般的資源,面對成千上萬并每天都會更新添加的數據,我們又該如何找到數據集呢?接下來大為家介紹一些技巧和竅門,希望可以幫助大家更好的學習并利用 Kaggle,找到對自己有用處,感興趣的數據集。

原文鏈接:

http://blog.kaggle.com/2017/09/11/how-can-i-find-a-dataset-on-kaggle/

▌從數據集頁面搜索

點擊 Kaggle 頁面頂部顯示的 “數據集” 標簽,即可進入數據集頁面

▌數據集搜索

當您在數據集頁面中使用搜索欄時,與使用頁面頂部的搜索欄不同,您將獲得包含所有搜索結果的新頁面

▌搜索提示

Kaggle 的搜索支持一些額外的搜索語法。這意味著您可以使用以下修改來更準確地進行搜索。

“”:將搜索文本放在雙引號(“”)中將搜索引號中的確切短語。“巧克力蛋糕” 將返回關于巧克力蛋糕的結果,但不包括巧克力棒或紅色天鵝絨蛋糕。

+:在兩個單詞之間加上一個(+),中間沒有空格,將返回具有第一個詞和第二個詞的搜索結果。“巧克力 + 蛋糕” 將返回巧克力和蛋糕的結果,但它們不必一起同時出現。

|:在兩個單詞之間放置一個(|)將返回結果中包含第一項或第二項。“蛋糕 |巧 克力” 將返回關于蛋糕或巧克力的結果。

*:如果您要查找多種拼寫的內容,可以使用星號(*)表示 “此處有任何字符”。“choc *” 將返回以 “choc” 開頭的結果,如 “choclate”,“chocked” 或 “chockablock”。

-:將減號(-)放在單詞前面會返回不包含該單詞的結果。“蛋糕 - 巧克力” 將返回不包含 “巧克力” 一詞的蛋糕的結果。

▌在搜索結果中找到特定內容

如果您的搜索有很多結果,在搜索結果頁面中使用瀏覽器的 “在頁面查找” 功能返回有時會有所幫助。

▌排序結果

還可以用不同的方式對搜索結果進行排序:

熱度:這是結果排序的默認方式。熱度由許多因素決定,包括整體受歡迎程度以及某段時間內活動增加。

投票數最多:根據他們收到的最高票數排序。

最近更新[我的推薦]:根據最近更新的結果(創建或添加新版本)對結果進行排序。這是我個人最喜歡的排序搜索結果的方式:其他人更可能提出流行的,較舊的數據集。我更喜歡看到較新的數據集。除其他優點之外,我發現最近更新數據集的數據集上傳者更可能對問題做出回應并對內核發表評論。

最近活動:根據最近任何人與數據集進行交互的情況對結果進行排序,包括評論,啟動或運行內核。

相關性:根據它們對查詢的相關程度對結果進行排序。

▌特色 VS. 所有 數據集

默認情況下,只在數據集頁面上顯示 “Featured” 數據集。該數據集是由 Kaggle團隊成員精選的。特色數據集應該記錄完整,進行過數據清洗并且可以隨時使用。但是,并非所有數據集都具有特征,并且還有幾個高質量數據集可能尚未提供。如果您希望看到所有數據集,而不僅僅是那些已被選為特色的數據集,您可以通過單擊 “All” 一 詞從 “Featured” 選項卡切換到 “All” 選項卡來執行此操作。您還將看到精選數據集,這些數據集將通過標題旁灰色 “Featured” 標記進行區分。

▌數據集標簽

另一種查找數據集的方法是使用標簽(一個相對較新的功能)。您可以通過兩種方式搜索特定標簽。首先是通過點擊數據集列表中的標簽或數據集頁面上的標簽。這將返回具有匹配標簽的數據集列表。第二個是在搜索框中搜索標簽。您可以通過添加 “tag” 來完成此操作,然后在單引號中添加標簽的名稱。如果標簽中有空格,請包含它們。

標簽:'食物和飲料':搜索標簽為“食物和飲料”的數據集

標簽:'internet':搜索標簽為“internet”的數據集

數量眾多的標簽涵蓋了數據發布者用于使數據更容易被發現的各種主題。目前,用戶無法添加自己的單獨標簽。建議點擊標簽以了解更多有關標簽的信息,而不是使用文本搜索并試圖猜測某個標簽是否存在。

▌頁面頂部搜索欄進行搜索

當知道某些數據集已經存在,可以在 Kaggle 網頁頂部的搜索欄進行搜索,這是一個方便的捷徑,但對于深入搜索,個人偏好還是喜歡在數據集頁面內進行搜索

在右側,可以看到當搜索 “巧克力“ 時,在數據集的最佳結果都是數據集。

在左邊,可以看到,當搜索 “巧克力” 時,顯示結果依次是:數據集,內核和用戶。

以上是關于 Kaggle 數據集的搜索 Tips,如果此時您需要使用特定類型的數據,可以上傳您的數據,也為這項艱難偉大的工程貢獻一份力量。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 數據集
    +關注

    關注

    4

    文章

    1208

    瀏覽量

    24716
  • ai技術
    +關注

    關注

    1

    文章

    1279

    瀏覽量

    24332

原文標題:如何在Kaggle上受到萬人敬仰?

文章出處:【微信號:AI_Thinker,微信公眾號:人工智能頭條】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    Kaggle機器學習/數據科學現狀調查

    Kaggle 是互聯網上最著名的數據科學競賽平臺之一,今年 3 月 8 日,這家機構被谷歌收購,6 月 6 日又宣布用戶數量超過了 100 萬人。
    的頭像 發表于 06-29 09:11 ?9852次閱讀
    <b class='flag-5'>Kaggle</b>機器學習/<b class='flag-5'>數據</b>科學現狀調查

    #硬聲創作季 人工智能-:2-Kaggle電影數據下載與配置

    人工智能數據
    Mr_haohao
    發布于 :2022年10月17日 09:58:52

    谷歌的Dataset Search開放至今,為什么還搜不到我的數據

    是什么?」這種對正在處理的任務的關注使得一些問題比最初看起來容易。連接重復數據對于流行的數據,在多個資源庫中重復出現是
    發表于 09-28 16:22

    基于onepanel使用kaggle api提交結果和下載數據的步驟

    在onepanel上使用kaggle api提交結果和下載數據
    發表于 04-22 11:00

    kaggle泰坦尼克生存預測實施步驟

    數據分析-kaggle泰坦尼克號生存率分析(入門)個人總結
    發表于 09-05 15:36

    是否在沒有擴展指令的情況下乘以16x16u的匯編程序例程?

    有沒有人有一個16x 16的乘法例程,它不需要擴展指令,比如16F887????數據表中有18F45K22的16x16u例程,但它需要擴展指令命令MULWF和MOVFF(我可以
    發表于 04-03 09:54

    BI分享秀——高度開放的數據分析經驗共享

    容易出現分析無頭緒的情況,這個時候就能夠通過BI分享秀去參考借鑒他人的分析經驗。在SpeedBI數據分析云平臺上,BI分享秀充當分析經驗共享的主力,同時上線的BI模板秀則充當新可視
    發表于 05-12 14:23

    HiSpark AI Camera HarmonyOS :3.深度學習探索[一] :魚臉識別&資料整理與數據共享

    使用的是FishDataset這個數據,有3G大小,背景不純凈。數據的文件夾名就是魚類的名字。1.2 讀取數據:1.2.1 基本都要引入的庫: import osimport pat
    發表于 11-22 16:54

    環路補償容易

    環路補償容易 有需要的看一看,不收積分。
    發表于 11-20 17:05 ?0次下載

    多維數據是什么

    使用多維數據向導,可以在 SQL Server 2005 中輕松定義簡單的多維數據。該向導可以幫助您多維
    的頭像 發表于 02-24 10:48 ?9657次閱讀
    多維<b class='flag-5'>數據</b><b class='flag-5'>集</b>是什么

    Kaggle利于數據科學領域新手學習的幾點特征,并帶你學習ML相關知識

    它們只是Kaggle的Jupyter筆記本版本,反過來,它只是一種非常有效和酷炫的共享代碼方式,以及大量的可視化,輸出和解釋。“內核”選項卡您帶到一個公共內核列表,人們用它來展示一些新工具或分享他們對某些特定
    的頭像 發表于 11-19 10:13 ?2650次閱讀

    Kaggle創始人Goldbloom:我們是這樣做數據科學競賽的

    所以說,在kaggle里有各種各樣的問題,包括不同的行業、不同的方面,這里面非常有意思的一點,就是所有的問題,都可以用差不多的方法來進行解決。當我們有兩個數據的時候,一個是訓練,一
    的頭像 發表于 01-23 15:16 ?2389次閱讀

    如何使用數據庫技術實現空間數據共享系統的設計

    的重要途徑。本文研究當前流行空間數據共享方案,設計一種以XML信息交換標準的空間數據轉換系統,空間
    發表于 09-17 16:07 ?13次下載
    如何使用<b class='flag-5'>數據</b>庫技術實現空間<b class='flag-5'>數據</b><b class='flag-5'>共享</b>系統的設計

    電流共享變得容易

    電流共享變得容易
    發表于 05-27 09:00 ?10次下載
    電流<b class='flag-5'>共享</b>變得<b class='flag-5'>容易</b>

    最全自動駕駛數據分享系列一:目標檢測數據

    自動駕駛數據分享是整數智能推出的一個全新分享系列,在這個系列中,我們介紹目前為止各大科研機構和企業推出的所有公開自動駕駛數據
    發表于 06-06 11:15 ?2次下載
    最全自動駕駛<b class='flag-5'>數據</b><b class='flag-5'>集</b>分享系列一:目標檢測<b class='flag-5'>數據</b><b class='flag-5'>集</b>
    主站蜘蛛池模板: 久久国产免费福利永久| 免费网址视频在线看| www.色午夜.com| www.婷婷色| 又黑又长黑人欧美三级| 99久久99久久免费精品蜜桃| 在线观看免费xx高清视频| 亚洲精品美女久久久久网站| 午夜小视频在线播放| 欧美黄色录象| japanese日本护士xx亚洲 | 色老头综合| 色多多在线| 美女张开大腿让男人捅| 久久久99精品免费观看精品| 国产www色| 爽天天天天天天天| 2019天天干| 免费网站看黄| 婷婷综合在线观看丁香| 奇米77| 国产天堂网| 天天爽爽| 1024久久| a中文字幕1区| 三级三级三级网站网址| 久操福利视频| 午夜视频1000部免费看| 精品久草| 轻点灬大ji巴太粗太大了小说| 亚洲人成网站色在线观看| 欧美性狂猛xxxxxbbbbb| 波多久久夜色精品国产| 男女一级特黄a大片| 黄色网在线看| 亚洲日韩图片专区第1页| 欧美h视频| 午夜精品久久久| 欧美黑人性受xxxx喷水| 中文天堂在线最新版在线www| 色婷婷婷婷|