古风小说,我欲封天txt下载,有声读物

盡管MNIST是源于NIST數(shù)據(jù)庫的基準(zhǔn)數(shù)據(jù)集，但是導(dǎo)出MNIST的精確處理過程已經(jīng)隨著時(shí)間的推移被人們多遺忘。因此，作者提出了一種足以替代MNIST數(shù)據(jù)集的重建數(shù)據(jù)集，并且它不會(huì)帶來準(zhǔn)確度的降低。作者將每個(gè)MNIST數(shù)字與它在NIST中的源相對(duì)應(yīng)，并得到了更加豐富的元數(shù)據(jù)，如作者標(biāo)識(shí)符、分區(qū)標(biāo)識(shí)符等。作者還重建了一個(gè)完整的MNIST測(cè)試集，其中包含60000個(gè)測(cè)試樣本，而不是通常使用的10000個(gè)樣本。由于多余的50000個(gè)樣本沒有被使用，因此可以用來探究25年來已有的MNIST實(shí)驗(yàn)?zāi)Ｐ驮谠摂?shù)據(jù)集上的測(cè)試效果。

引言

MNIST數(shù)據(jù)集被用作機(jī)器學(xué)習(xí)的基準(zhǔn)集已經(jīng)超過二十年了。在過去的十年中，許多研究者都表示該數(shù)據(jù)集已經(jīng)被過度使用了。特別是它僅有10000個(gè)樣本用于測(cè)試，這引起了不少的關(guān)注。已有數(shù)百篇論文的方法在這個(gè)測(cè)試集上取得越來越好的效果。那這些模型是否在測(cè)試集上過擬合？我們還能相信在這個(gè)數(shù)據(jù)集上得到的新結(jié)論嗎？機(jī)器學(xué)習(xí)的數(shù)據(jù)集多久會(huì)變得無用？

NIST手寫字符集的第一部分已經(jīng)在一年前發(fā)布，它是一個(gè)由2000名人口普查局員工手寫的訓(xùn)練集和500名高中生手寫的更具挑戰(zhàn)性的測(cè)試集。 LeCun、Cortes 和Burges的目標(biāo)是創(chuàng)建一個(gè)具有類似分布的訓(xùn)練集和測(cè)試集。這個(gè)過程生成了兩組60000個(gè)樣本的數(shù)據(jù)集，可能是由于當(dāng)時(shí)電腦計(jì)算這些數(shù)據(jù)集的速度非常慢，他們將測(cè)試集下采樣到僅10000個(gè)樣本，因此多余的50000樣本從未被用于任何的測(cè)試。

本文研究的目的是重建MNIST預(yù)處理算法，以便將每個(gè)MNIST數(shù)字圖追溯到NIST中原始的手寫體。這種重建是基于可用信息，之后通過迭代細(xì)化來提升它的水平。第2節(jié)描述了這個(gè)過程，并計(jì)算了重建樣本與官方MNIST樣本的匹配程度。重建的訓(xùn)練集包含了與原有MNIST訓(xùn)練集相匹配的60000張圖片。類似的，重建的10000張測(cè)試圖片也與MNIST測(cè)試集里面的每張圖片相匹配。剩下的50000張是對(duì)在MNIST中丟失的50000張圖像的重建。

與Recht等人一致，重建這50000張樣本，使得研究人員可以量化官方MNIST測(cè)試集在25年來退化的過程。第3節(jié)比較和討論了在一些知名算法在原始MNIST測(cè)試集、重建MNIST測(cè)試集，以及丟失的50000測(cè)試樣本集上進(jìn)行測(cè)試的性能。本文的實(shí)驗(yàn)結(jié)果在不同數(shù)據(jù)集上驗(yàn)證了Recht et al. [2018, 2019]指出的趨勢(shì)。

重構(gòu)MNIST

圖1：LeCun94年文獻(xiàn)中描述MNIST的處理過程

圖1 顯示的是MNIST創(chuàng)建的過程。作者提到，該描述錯(cuò)誤地描述了數(shù)字圖在hsf4分區(qū)中的位數(shù)，在原始的NIST測(cè)試集中應(yīng)該是58527，而不是58646。這兩段話給出了一個(gè)相對(duì)精確的處理方法，使用它生成的數(shù)據(jù)集比實(shí)際MNIST訓(xùn)練集多了一個(gè)0，少了一個(gè)8。盡管并不匹配，這些類分布是如此相近，以至于hsf4分區(qū)中確實(shí)好像缺少了119位。那么應(yīng)該如何來裁剪128x128的二進(jìn)制NIST圖像？應(yīng)該使用哪種啟發(fā)式算法來忽略不屬于圖片本身的噪聲像素？以及對(duì)于最終的中心坐標(biāo)，應(yīng)該如何四舍五入呢？

本文的初始重建算法是根據(jù)圖1中的描述得到的，但作者在Lush代碼庫里面發(fā)現(xiàn)了另一種重采用的算法，它不是使用雙線性插值或雙三次插值，而是計(jì)算輸入和輸出的精確重疊像素。作者重建的第一個(gè)QMNISTV1與實(shí)際的MNIST非常相似，但是存在著鋸齒圖像，因此作者通過微調(diào)初始中心坐標(biāo)和重采樣算法，得到了QMNISTV2。

圖2：并排顯示MNIST和QMNIST的圖像，其中放大圖說明了重建的圖片是抗鋸齒像素的。

接著，作者又發(fā)現(xiàn)MNIST和QMNIST之間的最小距離L2是一個(gè)較可靠的指標(biāo)，因此作者使用匈牙利算法計(jì)算匹配度，并進(jìn)一步調(diào)整裁剪算法，這樣一步一步迭代調(diào)整，又可以得到QMNISTV3、V4、V5。最終得到了QMNIST。

評(píng)估QMNIST

作者做了一系列實(shí)驗(yàn)來評(píng)估QMNIST與MNIST之間的差距。

表1：在MNIST和QMNIST之間抖動(dòng)像素的四分位數(shù)，L2距離表示一個(gè)像素的差異，L1距離表示像素之間的最大絕對(duì)差。

表2：在沒有平移或+-1像素平移下，MNIST和QMNIST訓(xùn)練圖像標(biāo)齊的數(shù)量

表3：在MNIST和QMNIST訓(xùn)練集上訓(xùn)練LeNet5卷積網(wǎng)絡(luò)，并在MNIST測(cè)試集、QMNIST測(cè)試集和QMNIST新部分上進(jìn)行測(cè)試

重構(gòu)觀察到的結(jié)論

重構(gòu)MNIST，使作者發(fā)現(xiàn)了一些之前未報(bào)道過的關(guān)于MNIST的事情。

1、整個(gè)NIST手寫字符集只有三個(gè)重復(fù)的數(shù)字，其中只有一個(gè)屬于生成MNIST的字段，但被MNIST作者刪除了。

2、MNIST測(cè)試集的前5001張圖片似乎是從高中生（#2350-#2599）寫的圖片中隨機(jī)挑選出來的，接下來的4999張圖片是按順序（#35000-#39998）由48位人工普查局員工（#326-#373）撰寫的，雖然人數(shù)有點(diǎn)少，可能讓人擔(dān)心統(tǒng)計(jì)樣本有問題，但這些圖像比較干凈，幾乎對(duì)總測(cè)試誤差沒有影響。

3、第一個(gè)MNIST訓(xùn)練集樣本中的偶數(shù)圖像與高中學(xué)生所寫的數(shù)字完全匹配，其余圖像是NIST圖像#0到#30949的順序。這意味著在連續(xù)的mini-batch的MNIST訓(xùn)練圖像中，圖像可能是同一人寫的。因此作者建議在minibatch中，打亂訓(xùn)練集。

4、28x28MNIST圖像的中心點(diǎn)存在舍入誤差。事實(shí)中，MNIST數(shù)字的平均中心原理圖像幾何中心至少半個(gè)像素。這很重要，因?yàn)槭褂谜_的圖像進(jìn)行訓(xùn)練，然后在MNIST上進(jìn)行測(cè)試，可能會(huì)使模型性能下降很多。

5、MNIST重采樣代碼中的缺陷會(huì)在粗字符的暗區(qū)域產(chǎn)生低幅周期性的圖像。這在Lush代碼中仍然可見，這些模式的周期取決于傳遞給重采樣代碼的輸入和輸出圖像的相對(duì)大小。

6、關(guān)于將二次采樣圖像的連續(xù)值像素轉(zhuǎn)換為整數(shù)值像素有一些奇怪的事情。我們當(dāng)前的代碼將每個(gè)圖像中觀察到的范圍線性映射到區(qū)間【0.0,255.0】，之后四舍五入到最接近的整數(shù)。然而，像素比較直方圖顯示MNIST值128的像素更多，值255的像素更少。

圖3：像素直方圖對(duì)比，紅色為MNIST，藍(lán)色為QMNIST。

泛化性能評(píng)估

本節(jié)是利用未用的50000個(gè)樣本，來重新審視已經(jīng)報(bào)道過的一些論文結(jié)論。Recht等人對(duì)CIFAR10和ImageNet有類似的研究。作者使用了三個(gè)測(cè)試集：MNIST測(cè)試集（10000張）、重建的QMNIST測(cè)試集（10000張，QMNIST10），以及重建的未用的50000張測(cè)試集（QMNIST50）。在MNIST訓(xùn)練集上，類似地，我們使用TQTM、TQTQ10和TQTQ50來表示結(jié)果。這些數(shù)據(jù)都沒有使用數(shù)據(jù)增強(qiáng)。作者使用了KNN、SVM、MLP、Lenet5等方法。

總結(jié)

作者重構(gòu)了MNIST數(shù)據(jù)集，不僅是重新溯源到NIST源圖像和相關(guān)元數(shù)據(jù)，還重構(gòu)了原始MNIST測(cè)試集，包括從未發(fā)布的50000個(gè)測(cè)試樣本。經(jīng)過長時(shí)間的研究，作者的發(fā)現(xiàn)與Recht等人的成果一致。所有這些結(jié)果都表明“測(cè)試集腐爛”問題確實(shí)存在，但遠(yuǎn)遠(yuǎn)沒有研究者擔(dān)心的那么嚴(yán)重，重復(fù)使用相同測(cè)試集會(huì)影響性能，但它同樣有利于模型選擇。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)

+關(guān)注

關(guān)注
66

文章
8422

瀏覽量
132736
數(shù)據(jù)集

數(shù)據(jù)集

+關(guān)注

關(guān)注
4

文章
1208

瀏覽量
24725
MNIST

MNIST

+關(guān)注

關(guān)注
0

文章
10

瀏覽量
3386

原文標(biāo)題：MNIST重生，測(cè)試集增加至60000張！

文章出處：【微信號(hào)：rgznai100，微信公眾號(hào)：rgznai100】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

計(jì)算機(jī)視覺/深度學(xué)習(xí)領(lǐng)域常用數(shù)據(jù)集匯總

`深度學(xué)習(xí)領(lǐng)域的“Hello World!”，入門必備！MNIST是一個(gè)手寫數(shù)字?jǐn)?shù)據(jù)庫，它有60000個(gè)訓(xùn)練

發(fā)表于 08-29 10:36

深度學(xué)習(xí)中開發(fā)集和測(cè)試集的定義

下載了含有貓的圖片（正樣本，又譯作正例），以及不含貓的圖片（負(fù)樣本，又譯作反例），從而得到了一個(gè)巨型的數(shù)據(jù)集。他們將數(shù)據(jù)

發(fā)表于 11-30 16:58

開發(fā)集和測(cè)試集應(yīng)該有多大？

對(duì)整體系統(tǒng)的性能進(jìn)行一個(gè)高度可信的評(píng)估。一種常見的啟發(fā)式策略是將整體 30% 的數(shù)據(jù)用作測(cè)試集，這適用于總體數(shù)據(jù)量規(guī)模

發(fā)表于 12-10 10:23

清洗誤標(biāo)注的開發(fā)集和測(cè)試集樣本

的標(biāo)簽質(zhì)量。處理這些誤標(biāo)注的樣本將幫助你找出分類器的誤差是接近 1.4% 還是 2.0% ，差異顯著。在項(xiàng)目初始階段容許一些誤標(biāo)注的開發(fā)集/測(cè)試集

發(fā)表于 12-19 09:48

如何研究帶有菊花鏈路由的BGA測(cè)試樣本？

HI。我是一名大學(xué)生，正在研究SMT焊點(diǎn)的可靠性。在我的研究中，我需要一系列帶有菊花鏈路由的BGA測(cè)試樣本，如IPC-9701。在下面的網(wǎng)站上我發(fā)現(xiàn)你也做了一些研究。所以我想知道你是否

發(fā)表于 11-08 13:40

TensorFlow邏輯回歸處理MNIST數(shù)據(jù)集

.train.labels。mnist.train.images 的每項(xiàng)都是一個(gè)范圍介于 0 到 1 的像素強(qiáng)度：在 TensorFlow 圖中為訓(xùn)練數(shù)據(jù)集的輸入 x 和標(biāo)簽 y 創(chuàng)

發(fā)表于 08-11 19:36

TensorFlow邏輯回歸處理MNIST數(shù)據(jù)集

.train.labels。mnist.train.images 的每項(xiàng)都是一個(gè)范圍介于 0 到 1 的像素強(qiáng)度：在 TensorFlow 圖中為訓(xùn)練數(shù)據(jù)集的輸入 x 和標(biāo)簽 y 創(chuàng)

發(fā)表于 08-11 19:36

如何利用keras打包制作mnist數(shù)據(jù)集

~/.keras/datasets目錄存放mnist.npz 數(shù)據(jù)集，這是一個(gè)numpy格式的壓縮文件，所以可以用numpy打開。 import numpy as np file_pa

發(fā)表于 08-18 06:12

針對(duì)特定測(cè)試樣本的隱寫分析方法

擁有大數(shù)據(jù)訓(xùn)練資源的前提下，研究了隱寫對(duì)圖像特征的影響，找出了隱寫分析與圖像特征之間的重要關(guān)系，基于此提出了一種為測(cè)試樣本選擇專用訓(xùn)練集的隱寫分析方法．以經(jīng)典的JPEG隱寫算法nsF5和主流的JPEG隱寫分析特征（CC-PEV、

發(fā)表于 12-15 16:05 ?0次下載

MNIST是一個(gè)簡單的計(jì)算機(jī)視覺數(shù)據(jù)集

為了探索這一點(diǎn)，我們可以把MNIST數(shù)據(jù)點(diǎn)看作是在一個(gè)784維立方體中固定的一點(diǎn)。立方體的每個(gè)維度都對(duì)應(yīng)

發(fā)表于 05-07 16:14 ?1.1w次閱讀

如何用Fashion-MNIST數(shù)據(jù)集搭建一個(gè)用于辨認(rèn)時(shí)尚單品的機(jī)器學(xué)習(xí)模型

去年八月份，德國研究機(jī)構(gòu)Zalando Research在GitHub上推出了一個(gè)全新的數(shù)據(jù)集，其中訓(xùn)練集

發(fā)表于 11-08 08:59 ?2w次閱讀

基于測(cè)試樣本誤差重構(gòu)的協(xié)同表示分類方法

。CRC利用范數(shù)正則化來解決測(cè)試樣本的線性表示問題，以期得到一個(gè)較穩(wěn)定的數(shù)值解。已有研究表明，正則化參數(shù)的選擇對(duì)協(xié)同表示的數(shù)值穩(wěn)定性起著非常重要的作用。文中提岀了一種新的基于

發(fā)表于 05-28 16:32 ?5次下載

簡述PyTorch中mnist的transforms圖像處理

60000個(gè)訓(xùn)練樣本和10000個(gè)測(cè)試樣本組成，每個(gè)樣本都是

發(fā)表于 02-24 10:43 ?555次閱讀

兆易創(chuàng)新“一種NAND閃存芯片的測(cè)試樣本”專利獲授權(quán)

　根據(jù)專利摘要，本發(fā)明實(shí)際公開了nand閃存芯片的測(cè)試樣本，測(cè)試樣本由多個(gè)相同的樣本區(qū)域組成，每個(gè)樣本區(qū)域包含多個(gè)相鄰的數(shù)據(jù)塊。相鄰的幾個(gè)數(shù)

發(fā)表于 10-13 09:47 ?714次閱讀

圖像識(shí)別算法的測(cè)試方法有哪些

圖像識(shí)別算法的測(cè)試方法是一個(gè)廣泛而深入的話題，涉及到多個(gè)方面。數(shù)據(jù)集的選擇：標(biāo)準(zhǔn)數(shù)據(jù)集：使用廣泛認(rèn)可的數(shù)據(jù)

發(fā)表于 07-16 11:06 ?582次閱讀

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

一個(gè)完整的MNIST測(cè)試集，其中包含60000個(gè)測(cè)試樣本

評(píng)論

計(jì)算機(jī)視覺/深度學(xué)習(xí)領(lǐng)域常用數(shù)據(jù)集匯總

深度學(xué)習(xí)中開發(fā)集和測(cè)試集的定義

開發(fā)集和測(cè)試集應(yīng)該有多大？

清洗誤標(biāo)注的開發(fā)集和測(cè)試集樣本

如何研究帶有菊花鏈路由的BGA測(cè)試樣本？

TensorFlow邏輯回歸處理MNIST數(shù)據(jù)集

TensorFlow邏輯回歸處理MNIST數(shù)據(jù)集

如何利用keras打包制作mnist數(shù)據(jù)集

針對(duì)特定測(cè)試樣本的隱寫分析方法

MNIST是一個(gè)簡單的計(jì)算機(jī)視覺數(shù)據(jù)集

如何用Fashion-MNIST數(shù)據(jù)集搭建一個(gè)用于辨認(rèn)時(shí)尚單品的機(jī)器學(xué)習(xí)模型

基于測(cè)試樣本誤差重構(gòu)的協(xié)同表示分類方法

簡述PyTorch中mnist的transforms圖像處理

兆易創(chuàng)新“一種NAND閃存芯片的測(cè)試樣本”專利獲授權(quán)

圖像識(shí)別算法的測(cè)試方法有哪些

搜索歷史

一個(gè)完整的MNIST測(cè)試集，其中包含60000個(gè)測(cè)試樣本

評(píng)論

一個(gè)完整的MNIST測(cè)試集，其中包含60000個(gè)測(cè)試樣本