欢乐颂,盗墓笔记小说,小说阅读网站

一般通用的trick都被寫進論文和代碼庫里了

像優秀的優化器，學習率調度方法，數據增強，dropout，初始化，BN，LN，確實是調參大師的寶貴經驗，大家平常用的也很多。

這里主要有幾個，我們分成三部分，穩定有用型trick，場景受限型trick，性能加速型trick。

穩定有用型trick

0.模型融合

懂得都懂，打比賽必備，做文章沒卵用的人人皆知trick，早年模型小的時候還用stacking，直接概率融合效果也不錯。

對抗訓練

對抗訓練就是在輸入的層次增加擾動，根據擾動產生的樣本，來做一次反向傳播。以FGM為例，在NLP上，擾動作用于embedding層。給個即插即用代碼片段吧，引用了知乎id:Nicolas的代碼，寫的不錯，帶著看原理很容易就明白了。

#初始化
fgm=FGM(model)
forbatch_input,batch_labelindata:
#正常訓練
loss=model(batch_input,batch_label)
loss.backward()#反向傳播，得到正常的grad
#對抗訓練
fgm.attack()#在embedding上添加對抗擾動
loss_adv=model(batch_input,batch_label)
loss_adv.backward()#反向傳播，并在正常的grad基礎上，累加對抗訓練的梯度
fgm.restore()#恢復embedding參數
#梯度下降，更新參數
optimizer.step()
model.zero_grad()

具體FGM的實現

importtorch
classFGM():
def__init__(self,model):
self.model=model
self.backup={}

defattack(self,epsilon=1.,emb_name='emb.'):
#emb_name這個參數要換成你模型中embedding的參數名
forname,paraminself.model.named_parameters():
ifparam.requires_gradandemb_nameinname:
self.backup[name]=param.data.clone()
norm=torch.norm(param.grad)
ifnorm!=0andnottorch.isnan(norm):
r_at=epsilon*param.grad/norm
param.data.add_(r_at)

defrestore(self,emb_name='emb.'):
#emb_name這個參數要換成你模型中embedding的參數名
forname,paraminself.model.named_parameters():
ifparam.requires_gradandemb_nameinname:
assertnameinself.backup
param.data=self.backup[name]
self.backup={}

2.EMA/SWA

移動平均，保存歷史的一份參數，在一定訓練階段后，拿歷史的參數給目前學習的參數做一次平滑。這個東西，我之前在earhian的祖傳代碼里看到的。他喜歡這東西+衰減學習率。確實每次都有用。

#初始化
ema=EMA(model,0.999)
ema.register()

#訓練過程中，更新完參數后，同步updateshadowweights
deftrain():
optimizer.step()
ema.update()

# eval前，apply shadow weights；eval之后，恢復原來模型的參數
defevaluate():
ema.apply_shadow()
#evaluate
ema.restore()

具體EMA實現，即插即用：

classEMA():
def__init__(self,model,decay):
self.model=model
self.decay=decay
self.shadow={}
self.backup={}

defregister(self):
forname,paraminself.model.named_parameters():
ifparam.requires_grad:
self.shadow[name]=param.data.clone()

defupdate(self):
forname,paraminself.model.named_parameters():
ifparam.requires_grad:
assertnameinself.shadow
new_average=(1.0-self.decay)*param.data+self.decay*self.shadow[name]
self.shadow[name]=new_average.clone()

defapply_shadow(self):
forname,paraminself.model.named_parameters():
ifparam.requires_grad:
assertnameinself.shadow
self.backup[name]=param.data
param.data=self.shadow[name]

defrestore(self):
forname,paraminself.model.named_parameters():
ifparam.requires_grad:
assertnameinself.backup
param.data=self.backup[name]
self.backup={}

這兩個方法的問題就是跑起來會變慢，并且提分點都在前分位，不過可以是即插即用類型

3.Rdrop等對比學習方法

有點用，不會變差，實現起來也很簡單

#訓練過程上下文
ce=CrossEntropyLoss(reduction='none')
kld=nn.KLDivLoss(reduction='none')
logits1=model(input)
logits2=model(input)
#下面是訓練過程中對比學習的核心實現！?。?！
kl_weight=0.5#對比loss權重
ce_loss=(ce(logits1,target)+ce(logits2,target))/2
kl_1=kld(F.log_softmax(logits1,dim=-1),F.softmax(logits2,dim=-1)).sum(-1)
kl_2=kld(F.log_softmax(logits2,dim=-1),F.softmax(logits1,dim=-1)).sum(-1)
loss=ce_loss+kl_weight*(kl_1+kl_2)/2

大家都知道，在訓練階段。dropout是開啟的，你多次推斷dropout是有隨機性的。

模型如果魯棒的話，你同一個樣本，即使推斷時候，開著dropout，結果也應該差不多。好了，那么它的原理也呼之欲出了。用一張圖來形容就是：

隨便你怎么踹(dropout)，本AI穩如老狗。

KLD loss是衡量兩個分布的距離的，所以說他就是在原始的loss上，加了一個loss，這個loss刻畫了模型經過兩次推斷，抵抗因dropout造成擾動的能力。

4.TTA

這個一句話說明白，測試時候構造靠譜的數據增強，簡單一點的數據增強方式比較好，然后把預測結果加起來算個平均。

5.偽標簽

代碼和原理實現也不難，代價也是訓練變慢，畢竟多了一些數據一句話說明白，就是用訓練的模型，把測試數據，或者沒有標簽的數據，推斷一遍。構成偽標簽，然后拿回去訓練。注意不要leak。

聽起來挺離譜的，我們把步驟用偽代碼實現一下。

model1.fit(train_set,label,val=validation_set)#step1
pseudo_label=model.pridict(test_set)#step2
new_label=concat(pseudo_label,label)#step3
new_train_set=concat(test_set,train_set)#step3
model2.fit(new_train_set,new_label,val=validation_set)#step4
final_predict=model2.predict(test_set)#step5

用網上一個經典的圖來說就是。

6.神經網絡自動填空值

表數據在NN上的trick，快被tabnet 集大成了，這個方法是把缺失值的位置之外的地方mask，本身當成1這樣可以學習出一個參數，再加回這個feature的輸入上?？梢钥纯此恼碌膶崿F。

場景受限型trick

有用但場景受限或者不穩定

1.PET或者其他prompt的方案

在一些特定場景上有用，比如zeroshot，或者小樣本的監督訓練，在數據量充足情況下拿來做模型融合有點用，單模型不一定干的過硬懟。

2.Focalloss

偶爾有用，大部分時候用處不大，看指標，在一些對長尾，和稀有類別特別關注的任務和指標上有所作為。

3.mixup/cutmix等數據增強

挑數據，大部分數據和任務用處不大，局部特征比較敏感的任務有用，比如音頻分類等

4人臉等一些改動softmax的方式

在數據量偏少的時候有用，在工業界數據量巨大的情況下用處不大

5.領域后預訓練

把自己的數據集，在Bert base上用MLM任務再過一遍，代價也是變慢，得益于huggingface可用性極高的代碼，實現起來也非常簡單，適用于和預訓練預料差別比較大的一些場景，比如中藥，ai4code等，在一些普通的新聞文本分類數據集上用處不大。

6.分類變檢索

這算是小樣本分類問題的標準解法了，類似于人臉領域的baseline，在這上面有很多圍繞類間可分，類內聚集的loss改進，像aa-softmax,arcface，am-softmax等

在文本分類，圖像分類上效果都不錯。

突破性能型trick

1.混合精度訓練

AMP即插即用，立竿見影。

2.梯度累積

在優化器更新參數之前，用相同的模型參數進行幾次前后向傳播。在每次反向傳播時計算的梯度被累積（加總）。不過這種方法會影響BN的計算，可以用來突破batchsize上限。

3.Queue或者memery bank

可以讓batchsize突破天際，可以參考MoCo用來做對比學習的那個實現方式

4.非必要不同步

多卡ddp訓練的時候，用到梯度累積時，可以使用no_sync減少不必要的梯度同步，加快速度

審核編輯：李倩

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

代碼

代碼

+關注

關注
30

文章
4813

瀏覽量
68832
深度學習

深度學習

+關注

關注
73

文章
5511

瀏覽量
121350
nlp

nlp

+關注

關注
1

文章
489

瀏覽量
22065

原文標題：深度學習刷SOTA的一堆trick

文章出處：【微信號：zenRRan，微信公眾號：深度學習自然語言處理】歡迎添加關注！文章轉載請注明出處。

ADS1299重新燒錄后就是一堆雜波，造成這樣的原因一般是什么？

關于ADS1299的疑惑，我的程序燒入到自己做的板卡，有時候就能正常采樣，無論是外部信號發生器的波形，還是內部測試方波，但有時候重新燒錄后（程序一字未動）就是一堆雜波。請問造成這樣的原因一般是什么

發表于 12-19 08:48

NPU在深度學習中的應用

隨著人工智能技術的飛速發展，深度學習作為其核心驅動力之一，已經在眾多領域展現出了巨大的潛力和價值。NPU（Neural Processing Unit，神經網絡處理單元）是專門為深度

發表于 11-14 15:17 ?737次閱讀

GPU深度學習應用案例

GPU在深度學習中的應用廣泛且重要，以下是一些GPU深度學習應用案例：一、圖像識別圖像識別是

發表于 10-27 11:13 ?444次閱讀

AI大模型與深度學習的關系

AI大模型與深度學習之間存在著密不可分的關系，它們互為促進，相輔相成。以下是對兩者關系的介紹：一、深度學習是AI大模型的基礎技術支撐：

發表于 10-23 15:25 ?1044次閱讀

深度學習中的時間序列分類方法

時間序列分類（Time Series Classification, TSC）是機器學習和深度學習領域的重要任務之一，廣泛應用于人體活動識別、系統監測、金融預測、醫療診斷等多個領域。隨

發表于 07-09 15:54 ?1078次閱讀

深度學習中的無監督學習方法綜述

深度學習作為機器學習領域的一個重要分支，近年來在多個領域取得了顯著的成果，特別是在圖像識別、語音識別、自然語言處理等領域。然而，深度

發表于 07-09 10:50 ?854次閱讀

深度學習與nlp的區別在哪

深度學習和自然語言處理（NLP）是計算機科學領域中兩個非常重要的研究方向。它們之間既有聯系，也有區別。本文將介紹深度學習與NLP的區別。深度

發表于 07-05 09:47 ?1006次閱讀

深度學習中的模型權重

在深度學習這一充滿無限可能性的領域中，模型權重（Weights）作為其核心組成部分，扮演著至關重要的角色。它們不僅是模型學習的基石，更是模型智能的源泉。本文將從模型權重的定義、作用、優

發表于 07-04 11:49 ?1626次閱讀

深度學習常用的Python庫

深度學習作為人工智能的一個重要分支，通過模擬人類大腦中的神經網絡來解決復雜問題。Python作為一種流行的編程語言，憑借其簡潔的語法和豐富的庫支持，成為了

發表于 07-03 16:04 ?679次閱讀

深度學習與傳統機器學習的對比

在人工智能的浪潮中，機器學習和深度學習無疑是兩大核心驅動力。它們各自以其獨特的方式推動著技術的進步，為眾多領域帶來了革命性的變化。然而，盡管它們都屬于機器學習的范疇，但

發表于 07-01 11:40 ?1477次閱讀

NB81是否支持OneNet SOTA功能？應該如何激活SOTA？

NB81是否支持OneNet SOTA功能？可以支持，應該如何激活SOTA？

發表于 06-04 06:14

旋變位置不變的情況下，當使能SOTA功能與關閉SOTA功能時，APP中DSADC采樣得到的旋變sin和cos兩者值不一樣，為什么？

旋變位置不變的情況下，當使能SOTA功能與關閉SOTA功能時，APP中DSADC采樣得到的旋變sin和cos兩者值不一樣，用示波器采的輸入到MCU端的差分電壓是一樣的，難道是

發表于 05-17 08:13

深度解析深度學習下的語義SLAM

隨著深度學習技術的興起，計算機視覺的許多傳統領域都取得了突破性進展，例如目標的檢測、識別和分類等領域。近年來，研究人員開始在視覺SLAM算法中引入深度學習技術，使得

發表于 04-23 17:18 ?1343次閱讀

為什么深度學習的效果更好？

導讀深度學習是機器學習的一個子集，已成為人工智能領域的一項變革性技術，在從計算機視覺、自然語言處理到自動駕駛汽車等廣泛的應用中取得了顯著的成

發表于 03-09 08:26 ?653次閱讀

.sct文件自動生成了一堆代碼，并且有warning是什么原因導致的？

.sct文件自動生成了一堆代碼，并且有warning，手動改回去后編譯，警告消失，重新編譯又自動生成代碼并且伴隨警告，請問是什么原因造成的，需要如何解決？

發表于 03-07 06:39

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

深度學習刷SOTA的一堆trick

評論

ADS1299重新燒錄后就是一堆雜波，造成這樣的原因一般是什么？

NPU在深度學習中的應用

GPU深度學習應用案例

AI大模型與深度學習的關系

深度學習中的時間序列分類方法

深度學習中的無監督學習方法綜述

深度學習與nlp的區別在哪

深度學習中的模型權重

深度學習常用的Python庫

深度學習與傳統機器學習的對比

NB81是否支持OneNet SOTA功能？應該如何激活SOTA？

旋變位置不變的情況下，當使能SOTA功能與關閉SOTA功能時，APP中DSADC采樣得到的旋變sin和cos兩者值不一樣，為什么？

深度解析深度學習下的語義SLAM

為什么深度學習的效果更好？

.sct文件自動生成了一堆代碼，并且有warning是什么原因導致的？