本文介紹一個機器學習大型數據集的匯總網站,網站目前提供約 70 個最新數據集,涵蓋了計算機視覺、自然語言理解和音頻三大領域。
還在愁到哪里找到需要的機器學習數據集嗎?
每年都有很多大型、高質量的數據集發布,其中大多數數據集都發布在各自的網站上,通過谷歌搜索很難找到所有這些數據集。
現在,一位名叫Nikola Ple?a的開發人員做了一個項目,將所有機器學習的大型數據集收集在一個網站上,方便大家取用。
網站一經發布,好評如潮。網站目前提供約70個數據集,涵蓋了計算機視覺、自然語言理解和音頻三大領域,包括每個數據集的鏈接、簡介、許可類型、論文等,并且作者表示將繼續增加數據集數量。
傳送門:
https://www.datasetlist.com/
下面,我們分別介紹CV、NLP的最新10大數據集,以及4個音頻數據集。
計算機視覺(46個)
1. IBM人臉多樣性數據集
IBM的人臉多樣性(DiF)數據集是一個龐大而多樣化的數據集,旨在促進人臉識別技術中公平性和準確性的研究。DiF是第一個此類數據集,包含100萬張帶注釋的人臉圖像。
2. GQA
GQA數據集包含2200萬個關于各種日常圖像的問題。每個圖像都與圖像的對象、屬性和關系的場景圖相關聯,這是一個基于Visual Genome的新的清晰版本數據集。
3. NVIDIA Flickr-Faces-HQ數據集
該數據集由70000張分辨率為1024×1024的高質量PNG圖像組成,并且在人物的年齡、種族和圖像背景方面差異很大。數據集也很好地覆蓋了人臉的附件,如眼鏡,太陽鏡,帽子等。
4. Google Open Images V4
Open Images是一個包含約900萬個URL圖像的數據集,這些圖像具有包含數千個類別的圖像級標簽和邊界框注釋。
5. Youtube-8M 2018
YouTube- 8M是一個大型的帶標簽的視頻數據集,由數百萬個YouTube視頻ID和來自4700多個視覺實體的不同詞匯表的相關標簽組成,包含大量的視頻畫面信息、音頻信息、標簽信息。
6. Berkeley Deep Drive (BDD100K)
該數據集包含超過100k個駕駛體驗視頻,每個視頻長度為40秒,幀數為每秒30幀。總圖像數比百度ApolloScape(2018年3月發布)大800倍,比Mapillary大4800倍,比KITTI大8000倍。
7. ApolloScape
ApolloScape是一個此前的類似數據集如KITTI和CityScapes更大、更復雜的數據集。ApolloScape提供了高分辨率高10倍以上的圖像,并逐像素標注,包括26種不同的可識別對象,如汽車、自行車、行人和建筑物。隨著行人和車輛數量的增加,數據集提供了多個級別的場景復雜性,在給定場景中最多多達100輛車輛,以及更廣泛的具有挑戰性的環境,如惡劣天氣或極端光照條件。
8. Tencent ML - Images
騰訊發布的Tencent ML - Images是目前最大的開源多標簽圖像數據集,包括17,609,752個訓練圖像和88739個驗證圖像URL,注釋多達11,166個類別。
9. Fashion MNIST
Fashion-MNIST是Zalando文章圖像的一個數據集,包括60,000個示例的訓練集和10,000個示例的測試集。每個示例都是一個28x28的灰度圖像,與10個類別的標簽相關聯。
10. MegaFace
MF2訓練數據集是身份數量上最大的公開可用的面部識別數據集,有470萬張面部圖像,672K個身份,以及各自的邊界框。所有圖片均來自Flickr,并在知識共享協議下許可。
自然語言理解(18個)
1. 斯坦福問答數據集(SQuAD)
斯坦福問答數據集(Stanford Question answer Dataset, SQuAD)是一個全新的閱讀理解數據集,由眾包工作者根據維基百科文章提出的問題組成,其中每個問題的答案都對應閱讀文章的一段文本。SQuAD包含500多篇文章的10萬對以上的問答對,因此規模明顯大于之前的閱讀理解數據集。SQuAD2.0將SQuAD1.1中的10萬個問題與5萬多個新的、無法回答的問題(由眾包工作者提出)結合起來,使之看起來與可回答的問題相似。
2. MultiNLI
多體裁自然語言推理語料庫(Multi-Genre Natural Language Inference, MultiNLI)是一個由433k個句子對組成的源文本集合語料庫,這些句子對都帶有文本蘊涵信息。MultiNLI語料庫是在SNLI語料庫的基礎上建立的,但不同之處在于它涵蓋了一系列口語和書面文本的體裁,并支持獨特的跨體裁評估。
3. CoQA
CoQA是一個用于構建會話問答系統的大型數據集。CoQA包含127k個問題和答案,來自7個不同領域的8k個文本段落的對話。
4. Spider 1.0
Spider是一個大型復雜的跨域語義分析和text-to-SQL的數據集。Spider由10181個問題和5693個獨特的復雜SQL查詢組成,這些查詢來自200個數據庫,覆蓋138個不同的域。
5. HotpotQA
HotpotQA是一個以自然的、multi-hop的問題為特征的問答數據集,具有強大的支持事實的監督,以實現更易于解釋的問答系統。該數據集由113,000對基于Wikipedia的QA對組成。
6. Question Pairs (Quora)
包含超過400,000行潛在的問題對。
7. Yelp open dataset
Yelp數據集是用于個人、教育和學術目的的業務、評論和用戶數據的子集。可在JSON和SQL文件中使用。
8. Facebook bAbI
一個用于自動文本理解和推理的數據集。
9. MS MARCO
微軟機器閱讀理解數據集(MS MARCO)是一個用于閱讀理解和問題回答的新型大型數據集。在MS MARCO中,所有問題都是從真實的匿名用戶查詢中提取的。數據集中的答案來自上下文段落,這些段落使用Bing搜索引擎從真實的web文檔中提取。如果他們能夠總結出答案,那么查詢的答案就是人工生成的。
10. NewsQA
NewsQA數據集的目的是幫助研究社區構建能夠回答需要人類水平理解和推理技能的問題的算法。該數據集包含來自眾包的120K閱讀理解Q&A對。
音頻(4個)
1. Mozilla Common Voice
Mozilla擁有可供使用的最大的人類語音數據集,包括18種不同的語言,從4.2萬多名貢獻者那里收集了近1400小時的錄音語音數據。
2. NSynth
這是一個大規模、高質量的注釋音符數據集。NSynth數據集是一個音頻數據集,包含~300k個音符,每個音符都有一個獨特的音調、音色和包絡。
3. Google Audioset
AudioSet由632個音頻事件類的擴展本體和來自YouTube視頻的2084320個帶有人類標記的10秒聲音片段組成。本體被指定為事件類別的層次圖,涵蓋廣泛的人類和動物聲音、樂器和流派,以及常見的日常環境聲音。
4. LibriSpeech
LibriSpeech是一個有聲圖書數據集,包含文本和語音。數據集包含多位講者朗讀的各類有聲讀物,時長近500小時。
-
計算機視覺
+關注
關注
8文章
1699瀏覽量
46051 -
機器學習
+關注
關注
66文章
8428瀏覽量
132840 -
數據集
+關注
關注
4文章
1208瀏覽量
24749
原文標題:收藏:全網最大機器學習數據集,視覺、NLP、音頻都在這了
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論