在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

還在愁到哪里找到需要的機器學習數據集嗎?

DPVg_AI_era ? 來源:lp ? 2019-03-29 11:45 ? 次閱讀

本文介紹一個機器學習大型數據集的匯總網站,網站目前提供約 70 個最新數據集,涵蓋了計算機視覺、自然語言理解和音頻三大領域。

還在愁到哪里找到需要的機器學習數據集嗎?

每年都有很多大型、高質量的數據集發布,其中大多數數據集都發布在各自的網站上,通過谷歌搜索很難找到所有這些數據集。

現在,一位名叫Nikola Ple?a的開發人員做了一個項目,將所有機器學習的大型數據集收集在一個網站上,方便大家取用。

網站一經發布,好評如潮。網站目前提供約70個數據集,涵蓋了計算機視覺、自然語言理解和音頻三大領域,包括每個數據集的鏈接、簡介、許可類型、論文等,并且作者表示將繼續增加數據集數量。

傳送門:

https://www.datasetlist.com/

下面,我們分別介紹CV、NLP的最新10大數據集,以及4個音頻數據集。

計算機視覺(46個)

1. IBM人臉多樣性數據集

IBM的人臉多樣性(DiF)數據集是一個龐大而多樣化的數據集,旨在促進人臉識別技術中公平性和準確性的研究。DiF是第一個此類數據集,包含100萬張帶注釋的人臉圖像。

2. GQA

GQA數據集包含2200萬個關于各種日常圖像的問題。每個圖像都與圖像的對象、屬性和關系的場景圖相關聯,這是一個基于Visual Genome的新的清晰版本數據集。

3. NVIDIA Flickr-Faces-HQ數據集

該數據集由70000張分辨率為1024×1024的高質量PNG圖像組成,并且在人物的年齡、種族和圖像背景方面差異很大。數據集也很好地覆蓋了人臉的附件,如眼鏡,太陽鏡,帽子等。

4. Google Open Images V4

Open Images是一個包含約900萬個URL圖像的數據集,這些圖像具有包含數千個類別的圖像級標簽和邊界框注釋。

5. Youtube-8M 2018

YouTube- 8M是一個大型的帶標簽的視頻數據集,由數百萬個YouTube視頻ID和來自4700多個視覺實體的不同詞匯表的相關標簽組成,包含大量的視頻畫面信息、音頻信息、標簽信息。

6. Berkeley Deep Drive (BDD100K)

該數據集包含超過100k個駕駛體驗視頻,每個視頻長度為40秒,幀數為每秒30幀。總圖像數比百度ApolloScape(2018年3月發布)大800倍,比Mapillary大4800倍,比KITTI大8000倍。

7. ApolloScape

ApolloScape是一個此前的類似數據集如KITTI和CityScapes更大、更復雜的數據集。ApolloScape提供了高分辨率高10倍以上的圖像,并逐像素標注,包括26種不同的可識別對象,如汽車、自行車、行人和建筑物。隨著行人和車輛數量的增加,數據集提供了多個級別的場景復雜性,在給定場景中最多多達100輛車輛,以及更廣泛的具有挑戰性的環境,如惡劣天氣或極端光照條件。

8. Tencent ML - Images

騰訊發布的Tencent ML - Images是目前最大的開源多標簽圖像數據集,包括17,609,752個訓練圖像和88739個驗證圖像URL,注釋多達11,166個類別。

9. Fashion MNIST

Fashion-MNIST是Zalando文章圖像的一個數據集,包括60,000個示例的訓練集和10,000個示例的測試集。每個示例都是一個28x28的灰度圖像,與10個類別的標簽相關聯。

10. MegaFace

MF2訓練數據集是身份數量上最大的公開可用的面部識別數據集,有470萬張面部圖像,672K個身份,以及各自的邊界框。所有圖片均來自Flickr,并在知識共享協議下許可。

自然語言理解(18個)

1. 斯坦福問答數據集(SQuAD)

斯坦福問答數據集(Stanford Question answer Dataset, SQuAD)是一個全新的閱讀理解數據集,由眾包工作者根據維基百科文章提出的問題組成,其中每個問題的答案都對應閱讀文章的一段文本。SQuAD包含500多篇文章的10萬對以上的問答對,因此規模明顯大于之前的閱讀理解數據集。SQuAD2.0將SQuAD1.1中的10萬個問題與5萬多個新的、無法回答的問題(由眾包工作者提出)結合起來,使之看起來與可回答的問題相似。

2. MultiNLI

多體裁自然語言推理語料庫(Multi-Genre Natural Language Inference, MultiNLI)是一個由433k個句子對組成的源文本集合語料庫,這些句子對都帶有文本蘊涵信息。MultiNLI語料庫是在SNLI語料庫的基礎上建立的,但不同之處在于它涵蓋了一系列口語和書面文本的體裁,并支持獨特的跨體裁評估。

3. CoQA

CoQA是一個用于構建會話問答系統的大型數據集。CoQA包含127k個問題和答案,來自7個不同領域的8k個文本段落的對話。

4. Spider 1.0

Spider是一個大型復雜的跨域語義分析和text-to-SQL的數據集。Spider由10181個問題和5693個獨特的復雜SQL查詢組成,這些查詢來自200個數據庫,覆蓋138個不同的域。

5. HotpotQA

HotpotQA是一個以自然的、multi-hop的問題為特征的問答數據集,具有強大的支持事實的監督,以實現更易于解釋的問答系統。該數據集由113,000對基于Wikipedia的QA對組成。

6. Question Pairs (Quora)

包含超過400,000行潛在的問題對。

7. Yelp open dataset

Yelp數據集是用于個人、教育和學術目的的業務、評論和用戶數據的子集。可在JSON和SQL文件中使用。

8. Facebook bAbI

一個用于自動文本理解和推理的數據集。

9. MS MARCO

微軟機器閱讀理解數據集(MS MARCO)是一個用于閱讀理解和問題回答的新型大型數據集。在MS MARCO中,所有問題都是從真實的匿名用戶查詢中提取的。數據集中的答案來自上下文段落,這些段落使用Bing搜索引擎從真實的web文檔中提取。如果他們能夠總結出答案,那么查詢的答案就是人工生成的。

10. NewsQA

NewsQA數據集的目的是幫助研究社區構建能夠回答需要人類水平理解和推理技能的問題的算法。該數據集包含來自眾包的120K閱讀理解Q&A對。

音頻(4個)

1. Mozilla Common Voice

Mozilla擁有可供使用的最大的人類語音數據集,包括18種不同的語言,從4.2萬多名貢獻者那里收集了近1400小時的錄音語音數據。

2. NSynth

這是一個大規模、高質量的注釋音符數據集。NSynth數據集是一個音頻數據集,包含~300k個音符,每個音符都有一個獨特的音調、音色和包絡。

3. Google Audioset

AudioSet由632個音頻事件類的擴展本體和來自YouTube視頻的2084320個帶有人類標記的10秒聲音片段組成。本體被指定為事件類別的層次圖,涵蓋廣泛的人類和動物聲音、樂器和流派,以及常見的日常環境聲音。

4. LibriSpeech

LibriSpeech是一個有聲圖書數據集,包含文本和語音。數據集包含多位講者朗讀的各類有聲讀物,時長近500小時。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 計算機視覺
    +關注

    關注

    8

    文章

    1699

    瀏覽量

    46051
  • 機器學習
    +關注

    關注

    66

    文章

    8428

    瀏覽量

    132840
  • 數據集
    +關注

    關注

    4

    文章

    1208

    瀏覽量

    24749

原文標題:收藏:全網最大機器學習數據集,視覺、NLP、音頻都在這了

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    學習protel了,不知道該學習是99還是***,更不知道在哪里找

    學習protel了,不知道該學習是99還是***,更不知道在哪里找到適合win7的版本,高手 大蝦幫忙啊
    發表于 03-15 02:07

    _cror_ 在INTRINS.H 哪里找代碼?

    比如有個庫函數_cror_在INTRINS.H文件中,但是它并沒有寫它怎么實現的啊,如果我想參考庫函數怎么寫的該到哪里找呢。謝謝
    發表于 01-06 16:09

    求各位大神幫我看一下這個圖標在哪里找到

    謝謝各位大神,幫著小弟點一下這個圖標哪里找到
    發表于 08-26 19:31

    這個是什么。在哪里找到???拜托,告訴我一下行嗎。

    這是個溫度采集的程序框圖,其中有這個我不知道從哪里找到
    發表于 04-05 15:38

    請問這個圖標是真么意思 在哪里找到

    請問這個圖標是真么意思 在哪里找到
    發表于 05-20 20:22

    新手求問,下面右邊的圖標是什么,在哪里找到

    新手求問,下面右邊的圖標是什么,在哪里找到
    發表于 05-27 09:50

    剛剛開始學Altium,不知道這個封裝要到哪里找

    `別人給了一個原理圖給我,但有一個二極管的封裝找不到,哪位大神能告訴我應該到哪里找這個封裝`
    發表于 12-07 21:58

    3D Curve 是什么,在哪里找到

    求問,這個是什么?在哪里找到的。謝謝。
    發表于 04-21 15:31

    tdms文件輸出控件 在哪里找到

    `哪位大神知道這個控件在哪里找到`
    發表于 04-14 10:12

    哪里找到中斷向量名稱?

    嗨,Noob問題:在哪里找到中斷向量名?到目前為止,我一直依賴于數據表中的演示代碼,但是我找不到ADC向量。他們在某個文件里嗎?我猜:沒用。謝謝!
    發表于 10-31 13:43

    在網上下載的TD軟件,安裝后沒有License文件到哪里找

    網上下載的TD軟件,安裝后沒有License文件,到哪里找
    發表于 08-11 06:58

    機器學習應用及數據

    本文介紹了包括圖像分類、交易預測、情感分類、推薦系統、股票預測等在內的若干個機器學習應用及數據
    的頭像 發表于 04-21 11:01 ?4140次閱讀

    PLC網關采集PLC數據之后數據都放到哪里去了呢

    PLC網關采集PLC數據之后,數據都放到哪里去了呢
    發表于 11-06 16:01 ?2173次閱讀
    PLC網關采集PLC<b class='flag-5'>數據</b>之后<b class='flag-5'>數據</b>都放<b class='flag-5'>到哪里</b>去了呢

    機器學習算法的介紹

    哲學要回答的基本問題是從哪里來、我是誰、到哪里去,尋找答案的過程或許可以借鑒機器學習的套路:組織數據->挖掘知識->預測未來。組織
    的頭像 發表于 06-05 14:17 ?973次閱讀

    python idle在哪里找到

    于Python 1.5版本中推出,并且隨著Python的發展一直得到改進和優化。目前,IDLE已經成為了很多Python初學者學習和使用的首選工具之一。 那么,如何找到Python IDLE呢?
    的頭像 發表于 11-29 14:39 ?1134次閱讀
    主站蜘蛛池模板: 国内精品久久影视| 国产69精品久久| bt种子搜索在线| 亚洲精品资源| 亚洲第一页国产| 性久久久久久久| 最新午夜宅男| 亚洲精品久久久久影| 四虎国产永久在线精品免费观看| 日本三级日本三级日本三级极| 高清视频一区二区三区| tom影院亚洲国产日本一区| 操女人在线| 亚洲一区二区免费| 国产高清精品自在久久| 天天噜噜色| 一级毛片在播放免费| 迅雷www天堂在线资源| 三级视频欧美| 激情丁香婷婷| 亚洲天天| 国产免费一区二区三区香蕉精| 日xxxx| 久月婷婷| 天天做天天添婷婷我也去 | 国产精品午夜寂寞视频| sis色中色| 中文久草| 日本美女搞黄| 国产小毛片| 天天干夜夜爱| 啪啪国产视频| 优优国产在线视频| 亲女乱h文小兰第一次| 成人区精品一区二区毛片不卡| 手机看片日韩高清1024| 性xxxx奶大欧美高清| 道区二区三区四区| 欧美三级不卡在线观线看高清| 欧美色老头| ts视频在线观看|