好看的课外书,国际完美世界下载,殿上欢

1. 指定GPU編號(hào)

設(shè)置當(dāng)前使用的GPU設(shè)備僅為0號(hào)設(shè)備，設(shè)備名稱為/gpu:0：

os.environ["CUDA_VISIBLE_DEVICES"] = "0"

設(shè)置當(dāng)前使用的GPU設(shè)備為0, 1號(hào)兩個(gè)設(shè)備，名稱依次為/gpu:0、/gpu:1：
os.environ["CUDA_VISIBLE_DEVICES"] = "0,1"，根據(jù)順序表示優(yōu)先使用0號(hào)設(shè)備,然后使用1號(hào)設(shè)備。

指定GPU的命令需要放在和神經(jīng)網(wǎng)絡(luò)相關(guān)的一系列操作的前面。

2. 查看模型每層輸出詳情

Keras有一個(gè)簡(jiǎn)潔的API來查看模型的每一層輸出尺寸，這在調(diào)試網(wǎng)絡(luò)時(shí)非常有用。現(xiàn)在在PyTorch中也可以實(shí)現(xiàn)這個(gè)功能。

使用很簡(jiǎn)單，如下用法：

from torchsummary import summarysummary(your_model, input_size=(channels, H, W))

input_size是根據(jù)你自己的網(wǎng)絡(luò)模型的輸入尺寸進(jìn)行設(shè)置。

https://github.com/sksq96/pytorch-summary

3. 梯度裁剪（Gradient Clipping）

import torch.nn as nn
outputs = model(data)loss= loss_fn(outputs, target)optimizer.zero_grad()loss.backward()nn.utils.clip_grad_norm_(model.parameters(), max_norm=20, norm_type=2)optimizer.step()

nn.utils.clip_grad_norm_的參數(shù)：

parameters– 一個(gè)基于變量的迭代器，會(huì)進(jìn)行梯度歸一化

max_norm– 梯度的最大范數(shù)

norm_type– 規(guī)定范數(shù)的類型，默認(rèn)為L(zhǎng)2

提出：梯度裁剪在某些任務(wù)上會(huì)額外消耗大量的計(jì)算時(shí)間。

4. 擴(kuò)展單張圖片維度

因?yàn)樵谟?xùn)練時(shí)的數(shù)據(jù)維度一般都是 (batch_size, c, h, w)，而在測(cè)試時(shí)只輸入一張圖片，所以需要擴(kuò)展維度，擴(kuò)展維度有多個(gè)方法：

import cv2import torch
image = cv2.imread(img_path)image = torch.tensor(image)print(image.size())
img = image.view(1, *image.size())print(img.size())
# output:# torch.Size([h, w, c])# torch.Size([1, h, w, c])

或

import cv2import numpy as np
image = cv2.imread(img_path)print(image.shape)img = image[np.newaxis, :, :, :]print(img.shape)
# output:# (h, w, c)# (1, h, w, c)

或

import cv2import torch
image = cv2.imread(img_path)image = torch.tensor(image)print(image.size())
img = image.unsqueeze(dim=0)  print(img.size())
img = img.squeeze(dim=0)print(img.size())
# output:# torch.Size([(h, w, c)])# torch.Size([1, h, w, c])# torch.Size([h, w, c])

tensor.unsqueeze(dim)：擴(kuò)展維度，dim指定擴(kuò)展哪個(gè)維度。

tensor.squeeze(dim)：去除dim指定的且size為1的維度，維度大于1時(shí)，squeeze()不起作用，不指定dim時(shí)，去除所有size為1的維度。

5. 獨(dú)熱編碼

在PyTorch中使用交叉熵?fù)p失函數(shù)的時(shí)候會(huì)自動(dòng)把label轉(zhuǎn)化成onehot，所以不用手動(dòng)轉(zhuǎn)化，而使用MSE需要手動(dòng)轉(zhuǎn)化成onehot編碼。

import torchclass_num = 8batch_size = 4
def one_hot(label):    """    將一維列表轉(zhuǎn)換為獨(dú)熱編碼    """    label = label.resize_(batch_size, 1)    m_zeros = torch.zeros(batch_size, class_num)    # 從 value 中取值，然后根據(jù) dim 和 index 給相應(yīng)位置賦值    onehot = m_zeros.scatter_(1, label, 1)  # (dim,index,value)
    return onehot.numpy()  # Tensor -> Numpy
label = torch.LongTensor(batch_size).random_() % class_num  # 對(duì)隨機(jī)數(shù)取余print(one_hot(label))
# output:[[0. 0. 0. 1. 0. 0. 0. 0.] [0. 0. 0. 0. 1. 0. 0. 0.] [0. 0. 1. 0. 0. 0. 0. 0.] [0. 1. 0. 0. 0. 0. 0. 0.]]

https://discuss.pytorch.org/t/convert-int-into-one-hot-format/507/3

6. 防止驗(yàn)證模型時(shí)爆顯存

驗(yàn)證模型時(shí)不需要求導(dǎo)，即不需要梯度計(jì)算，關(guān)閉autograd，可以提高速度，節(jié)約內(nèi)存。如果不關(guān)閉可能會(huì)爆顯存。

with torch.no_grad():    # 使用model進(jìn)行預(yù)測(cè)的代碼pass

感謝知乎用戶 @zhaz 的提醒，我把torch.cuda.empty_cache()的使用原因更新一下。

這是原回答：

Pytorch 訓(xùn)練時(shí)無用的臨時(shí)變量可能會(huì)越來越多，導(dǎo)致 out of memory ，可以使用下面語句來清理這些不需要的變量。

官網(wǎng)上的解釋為：

Releases all unoccupied cached memory currently held by the caching allocator so that those can be used in other GPU application and visible innvidia-smi.torch.cuda.empty_cache()

意思就是PyTorch的緩存分配器會(huì)事先分配一些固定的顯存，即使實(shí)際上tensors并沒有使用完這些顯存，這些顯存也不能被其他應(yīng)用使用。這個(gè)分配過程由第一次CUDA內(nèi)存訪問觸發(fā)的。

而torch.cuda.empty_cache()的作用就是釋放緩存分配器當(dāng)前持有的且未占用的緩存顯存，以便這些顯存可以被其他GPU應(yīng)用程序中使用，并且通過nvidia-smi命令可見。注意使用此命令不會(huì)釋放tensors占用的顯存。

對(duì)于不用的數(shù)據(jù)變量，Pytorch 可以自動(dòng)進(jìn)行回收從而釋放相應(yīng)的顯存。

更詳細(xì)的優(yōu)化可以查看：
優(yōu)化顯存使用：
https://blog.csdn.net/qq_28660035/article/details/80688427
顯存利用問題：
https://oldpan.me/archives/pytorch-gpu-memory-usage-track

7. 學(xué)習(xí)率衰減

import torch.optim as optimfrom torch.optim import lr_scheduler
# 訓(xùn)練前的初始化optimizer = optim.Adam(net.parameters(), lr=0.001)scheduler = lr_scheduler.StepLR(optimizer, 10, 0.1)  # # 每過10個(gè)epoch，學(xué)習(xí)率乘以0.1
# 訓(xùn)練過程中for n in n_epoch:    scheduler.step()    ...

8. 凍結(jié)某些層的參數(shù)

參考：Pytorch 凍結(jié)預(yù)訓(xùn)練模型的某一層

https://www.zhihu.com/question/311095447/answer/589307812

在加載預(yù)訓(xùn)練模型的時(shí)候，我們有時(shí)想凍結(jié)前面幾層，使其參數(shù)在訓(xùn)練過程中不發(fā)生變化。

我們需要先知道每一層的名字，通過如下代碼打印：

net = Network()  # 獲取自定義網(wǎng)絡(luò)結(jié)構(gòu)for name, value in net.named_parameters():    print('name: {0},	 grad: {1}'.format(name, value.requires_grad))

假設(shè)前幾層信息如下：

name: cnn.VGG_16.convolution1_1.weight,   grad: Truename: cnn.VGG_16.convolution1_1.bias,   grad: Truename: cnn.VGG_16.convolution1_2.weight,   grad: Truename: cnn.VGG_16.convolution1_2.bias,   grad: Truename: cnn.VGG_16.convolution2_1.weight,   grad: Truename: cnn.VGG_16.convolution2_1.bias,   grad: Truename: cnn.VGG_16.convolution2_2.weight,   grad: Truename: cnn.VGG_16.convolution2_2.bias,   grad: True

后面的True表示該層的參數(shù)可訓(xùn)練，然后我們定義一個(gè)要凍結(jié)的層的列表：

no_grad = [    'cnn.VGG_16.convolution1_1.weight',    'cnn.VGG_16.convolution1_1.bias',    'cnn.VGG_16.convolution1_2.weight',    'cnn.VGG_16.convolution1_2.bias']

凍結(jié)方法如下：

net = Net.CTPN()  # 獲取網(wǎng)絡(luò)結(jié)構(gòu)for name, value in net.named_parameters():    if name in no_grad:        value.requires_grad = False    else:        value.requires_grad = True

凍結(jié)后我們?cè)俅蛴∶繉拥男畔ⅲ?/p>

name: cnn.VGG_16.convolution1_1.weight,   grad: Falsename: cnn.VGG_16.convolution1_1.bias,   grad: Falsename: cnn.VGG_16.convolution1_2.weight,   grad: Falsename: cnn.VGG_16.convolution1_2.bias,   grad: Falsename: cnn.VGG_16.convolution2_1.weight,   grad: Truename: cnn.VGG_16.convolution2_1.bias,   grad: Truename: cnn.VGG_16.convolution2_2.weight,   grad: Truename: cnn.VGG_16.convolution2_2.bias,   grad: True

可以看到前兩層的weight和bias的requires_grad都為False，表示它們不可訓(xùn)練。

最后在定義優(yōu)化器時(shí)，只對(duì)requires_grad為True的層的參數(shù)進(jìn)行更新。

optimizer = optim.Adam(filter(lambda p: p.requires_grad, net.parameters()), lr=0.01)

9. 對(duì)不同層使用不同學(xué)習(xí)率

我們對(duì)模型的不同層使用不同的學(xué)習(xí)率。

還是使用這個(gè)模型作為例子：

net = Network()  # 獲取自定義網(wǎng)絡(luò)結(jié)構(gòu)for name, value in net.named_parameters():    print('name: {}'.format(name))
# 輸出：# name: cnn.VGG_16.convolution1_1.weight# name: cnn.VGG_16.convolution1_1.bias# name: cnn.VGG_16.convolution1_2.weight# name: cnn.VGG_16.convolution1_2.bias# name: cnn.VGG_16.convolution2_1.weight# name: cnn.VGG_16.convolution2_1.bias# name: cnn.VGG_16.convolution2_2.weight# name: cnn.VGG_16.convolution2_2.bias

對(duì) convolution1 和 convolution2 設(shè)置不同的學(xué)習(xí)率，首先將它們分開，即放到不同的列表里：

conv1_params = []conv2_params = []
for name, parms in net.named_parameters():    if "convolution1" in name:        conv1_params += [parms]    else:        conv2_params += [parms]
# 然后在優(yōu)化器中進(jìn)行如下操作：optimizer = optim.Adam(    [        {"params": conv1_params, 'lr': 0.01},        {"params": conv2_params, 'lr': 0.001},    ],    weight_decay=1e-3,)

我們將模型劃分為兩部分，存放到一個(gè)列表里，每部分就對(duì)應(yīng)上面的一個(gè)字典，在字典里設(shè)置不同的學(xué)習(xí)率。當(dāng)這兩部分有相同的其他參數(shù)時(shí)，就將該參數(shù)放到列表外面作為全局參數(shù)，如上面的`weight_decay`。

也可以在列表外設(shè)置一個(gè)全局學(xué)習(xí)率，當(dāng)各部分字典里設(shè)置了局部學(xué)習(xí)率時(shí)，就使用該學(xué)習(xí)率，否則就使用列表外的全局學(xué)習(xí)率。

審核編輯：彭靜

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

編碼

編碼

+關(guān)注

關(guān)注
6

文章
946

瀏覽量
54871
函數(shù)

函數(shù)

+關(guān)注

關(guān)注
3

文章
4338

瀏覽量
62743
pytorch

pytorch

+關(guān)注

關(guān)注
2

文章
808

瀏覽量
13249

原文標(biāo)題：PyTorch 常用 Tricks 總結(jié)

文章出處：【微信號(hào)：zenRRan，微信公眾號(hào)：深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

Pytorch模型訓(xùn)練實(shí)用PDF教程【中文】

對(duì) PyTorch 提供的數(shù)據(jù)增強(qiáng)方法（22 個(gè)）、權(quán)值初始化方法（10 個(gè)）、損失函數(shù)（17 個(gè)）、優(yōu)化器（6 個(gè)）及 tensorboardX 的方法（13 個(gè)）進(jìn)行了詳細(xì)介紹。本教程分為四章

發(fā)表于 12-21 09:18

什么是交叉熵？

2018-04-22 開胃學(xué)習(xí)數(shù)學(xué)系列 - 交叉熵

發(fā)表于 03-21 11:08

交叉熵的作用原理

交叉熵作為損失函數(shù)在神經(jīng)網(wǎng)絡(luò)中的作用和幾種常用的交叉熵損失

發(fā)表于 06-03 09:10

如何在PSoC設(shè)計(jì)器、Syxx中使用“StastFF（）”函數(shù)？

正如主題名所說，如何在PSoC設(shè)計(jì)器、Syxx中使用“StastFF（）”函數(shù)！

發(fā)表于 08-16 10:52

TensorFlow損失函數(shù)（定義和使用）詳解

的情況下，損失函數(shù)定義為交叉熵。輸出 Y 的維數(shù)等于訓(xùn)練數(shù)據(jù)集中類別的數(shù)量，其中 P 為類別數(shù)量：如果想把 L1 正則化加到損失上，那么代碼

發(fā)表于 07-28 14:38

如何在STM8單片機(jī)中使用printf函數(shù)功能？

如何在STM8單片機(jī)中使用printf函數(shù)功能？

發(fā)表于 12-01 07:19

神經(jīng)網(wǎng)絡(luò)在訓(xùn)練時(shí)常用的一些損失函數(shù)介紹

習(xí)的特定預(yù)測(cè)建模問題（例如分類或回歸）有關(guān)。在本文中我們將介紹常用的一些損失函數(shù)，包括：回歸模型的均方誤差損失二元分類模型的交叉熵和hing

發(fā)表于 10-20 17:14

keras常用的損失函數(shù)Losses與評(píng)價(jià)函數(shù)Metrics介紹

函數(shù)如下，它們有自己適用的應(yīng)用場(chǎng)景，最常用的是均方誤差和交叉熵誤差：編號(hào)可用損失函數(shù)alias說明1mean_squared_error(

發(fā)表于 08-18 06:31

機(jī)器學(xué)習(xí)和深度學(xué)習(xí)中分類與回歸常用的幾種損失函數(shù)

Loss、分位數(shù)損失 Quantile Loss、交叉熵損失函數(shù) Cross Entropy Loss、Hinge

發(fā)表于 10-09 16:36 ?6260次閱讀

基于交叉熵損失函欻的深度自編碼器診斷模型

對(duì)小類別樣本的學(xué)習(xí)。尤其當(dāng)故障樣本數(shù)極少時(shí)，此問題更突岀。針對(duì)這饣問題，提岀一種基于改進(jìn)交叉熵損失函欻的深度自編碼器的診斷模型，首先提取振動(dòng)數(shù)據(jù)的小波包能量，其次將小波包能量輸入到深度自編碼器中，最后通過SⅥa分類

發(fā)表于 06-18 16:49 ?9次下載

在PyTorch中使用ReLU激活函數(shù)的例子

PyTorch已為我們實(shí)現(xiàn)了大多數(shù)常用的非線性激活函數(shù)，我們可以像使用任何其他的層那樣使用它們。讓我們快速看一個(gè)在PyTorch中使用ReLU激活函

發(fā)表于 07-06 15:27 ?2557次閱讀

如何在Vitis HLS GUI中使用庫函數(shù)？

Vitis? HLS 2023.1 支持新的 L1 庫向?qū)В疚膶⒅v解如何下載 L1 庫、查看所有可用功能以及如何在 Vitis HLS GUI 中使用庫函數(shù)。

發(fā)表于 08-16 10:26 ?1230次閱讀

PyTorch中激活函數(shù)的全面概覽

為了更清晰地學(xué)習(xí)Pytorch中的激活函數(shù)，并對(duì)比它們之間的不同，這里對(duì)最新版本的Pytorch中的激活函數(shù)進(jìn)行了匯總，主要介紹激活函數(shù)的公

發(fā)表于 04-30 09:26 ?566次閱讀

如何在PyTorch中實(shí)現(xiàn)LeNet-5網(wǎng)絡(luò)

等人提出，主要用于手寫數(shù)字識(shí)別任務(wù)（如MNIST數(shù)據(jù)集）。下面，我將詳細(xì)闡述如何在PyTorch中從頭開始實(shí)現(xiàn)LeNet-5網(wǎng)絡(luò)，包括網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)、參數(shù)初始化、前向傳播、損失函數(shù)選擇、

發(fā)表于 07-11 10:58 ?817次閱讀

RNN的損失函數(shù)與優(yōu)化算法解析

函數(shù)有以下幾種：交叉熵損失函數(shù) ：交叉熵（Cros

發(fā)表于 11-15 10:16 ?485次閱讀

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

如何在PyTorch中使用交叉熵?fù)p失函數(shù)

評(píng)論

Pytorch模型訓(xùn)練實(shí)用PDF教程【中文】

什么是交叉熵？

交叉熵的作用原理

如何在PSoC設(shè)計(jì)器、Syxx中使用“StastFF（）”函數(shù)？

TensorFlow損失函數(shù)（定義和使用）詳解

如何在STM8單片機(jī)中使用printf函數(shù)功能？

神經(jīng)網(wǎng)絡(luò)在訓(xùn)練時(shí)常用的一些損失函數(shù)介紹

keras常用的損失函數(shù)Losses與評(píng)價(jià)函數(shù)Metrics介紹

機(jī)器學(xué)習(xí)和深度學(xué)習(xí)中分類與回歸常用的幾種損失函數(shù)

基于交叉熵損失函欻的深度自編碼器診斷模型

在PyTorch中使用ReLU激活函數(shù)的例子

如何在Vitis HLS GUI中使用庫函數(shù)？

PyTorch中激活函數(shù)的全面概覽

如何在PyTorch中實(shí)現(xiàn)LeNet-5網(wǎng)絡(luò)

RNN的損失函數(shù)與優(yōu)化算法解析