好看的言情小说,神武八荒一颗小说,好看的玄幻小说

到目前為止，我們一直在處理以現成張量形式到達的合成數據。然而，要在野外應用深度學習，我們必須提取以任意格式存儲的雜亂數據，并對其進行預處理以滿足我們的需要。幸運的是，pandas 庫可以完成大部分繁重的工作。本節雖然不能替代適當的pandas 教程，但將為您提供一些最常見例程的速成課程。

2.2.1. 讀取數據集

逗號分隔值 (CSV) 文件普遍用于存儲表格（類似電子表格）數據。此處，每一行對應一個記錄并由多個（逗號分隔）字段組成，例如，“Albert Einstein,March 14 1879,Ulm,Federal polytechnic school,Accomplishments in the field of gravitational physics”。為了演示如何加載 CSV 文件pandas，我們在下面創建了一個 CSV 文件 ../data/house_tiny.csv。此文件表示房屋數據集，其中每一行對應一個不同的房屋，列對應房間數 ( NumRooms)、屋頂類型 ( RoofType) 和價格 ( Price)。

import os os.makedirs(os.path.join('..', 'data'), exist_ok=True) data_file = os.path.join('..', 'data', 'house_tiny.csv') with open(data_file, 'w') as f: f.write('''NumRooms,RoofType,Price NA,NA,127500 2,NA,106000 4,Slate,178100 NA,NA,140000''')

現在讓我們導入pandas并加載數據集read_csv。

import pandas as pd data = pd.read_csv(data_file) print(data)

  NumRooms RoofType  Price
0    NaN   NaN 127500
1    2.0   NaN 106000
2    4.0  Slate 178100
3    NaN   NaN 140000

import pandas as pd data = pd.read_csv(data_file) print(data)

  NumRooms RoofType  Price
0    NaN   NaN 127500
1    2.0   NaN 106000
2    4.0  Slate 178100
3    NaN   NaN 140000

import pandas as pd data = pd.read_csv(data_file) print(data)

  NumRooms RoofType  Price
0    NaN   NaN 127500
1    2.0   NaN 106000
2    4.0  Slate 178100
3    NaN   NaN 140000

import pandas as pd data = pd.read_csv(data_file) print(data)

  NumRooms RoofType  Price
0    NaN   NaN 127500
1    2.0   NaN 106000
2    4.0  Slate 178100
3    NaN   NaN 140000

2.2.2. 數據準備

在監督學習中，我們訓練模型在給定一組輸入值的情況下預測指定的目標值。我們處理數據集的第一步是分離出對應于輸入值和目標值的列。我們可以按名稱或通過基于整數位置的索引 ( ) 選擇列。iloc

您可能已經注意到，pandas將所有 CSV 條目替換NA為一個特殊的NaN（不是數字）值。這也可能在條目為空時發生，例如“3,,,270000”。這些被稱為缺失值，它們是數據科學的“臭蟲”，是您在整個職業生涯中都會遇到的持續威脅。根據上下文，缺失值可以通過插補或刪除來處理。插補用缺失值的估計值替換缺失值，而刪除只是丟棄那些包含缺失值的行或列。

以下是一些常見的插補啟發法。對于分類輸入字段，我們可以將其視為NaN一個類別。由于該RoofType 列采用值Slate和NaN，pandas可以將此列轉換為兩列RoofType_Slate和RoofType_nan。屋頂類型為的行將分別將和 Slate的值設置為 1 和 0。相反的情況適用于具有缺失值的行。RoofType_SlateRoofType_nanRoofType

inputs, targets = data.iloc[:, 0:2], data.iloc[:, 2] inputs = pd.get_dummies(inputs, dummy_na=True) print(inputs)

  NumRooms RoofType_Slate RoofType_nan
0    NaN        0       1
1    2.0        0       1
2    4.0        1       0
3    NaN        0       1

inputs, targets = data.iloc[:, 0:2], data.iloc[:, 2] inputs = pd.get_dummies(inputs, dummy_na=True) print(inputs)

  NumRooms RoofType_Slate RoofType_nan
0    NaN        0       1
1    2.0        0       1
2    4.0        1       0
3    NaN        0       1

inputs, targets = data.iloc[:, 0:2], data.iloc[:, 2] inputs = pd.get_dummies(inputs, dummy_na=True) print(inputs)

  NumRooms RoofType_Slate RoofType_nan
0    NaN        0       1
1    2.0        0       1
2    4.0        1       0
3    NaN        0       1

inputs, targets = data.iloc[:, 0:2], data.iloc[:, 2] inputs = pd.get_dummies(inputs, dummy_na=True) print(inputs)

  NumRooms RoofType_Slate RoofType_nan
0    NaN        0       1
1    2.0        0       1
2    4.0        1       0
3    NaN        0       1

對于缺失的數值，一種常見的啟發式方法是用 NaN相應列的平均值替換條目。

inputs = inputs.fillna(inputs.mean()) print(inputs)

  NumRooms RoofType_Slate RoofType_nan
0    3.0        0       1
1    2.0        0       1
2    4.0        1       0
3    3.0        0       1

inputs = inputs.fillna(inputs.mean()) print(inputs)

  NumRooms RoofType_Slate RoofType_nan
0    3.0        0       1
1    2.0        0       1
2    4.0        1       0
3    3.0        0       1

inputs = inputs.fillna(inputs.mean()) print(inputs)

  NumRooms RoofType_Slate RoofType_nan
0    3.0        0       1
1    2.0        0       1
2    4.0        1       0
3    3.0        0       1

inputs = inputs.fillna(inputs.mean()) print(inputs)

  NumRooms RoofType_Slate RoofType_nan
0    3.0        0       1
1    2.0        0       1
2    4.0        1       0
3    3.0        0       1

2.2.3. 轉換為張量格式

inputs現在和中的所有條目targets都是數字，我們可以將它們加載到張量中（回憶一下2.1 節）。

import torch X, y = torch.tensor(inputs.values), torch.tensor(targets.values) X, y

(tensor([[3., 0., 1.],
     [2., 0., 1.],
     [4., 1., 0.],
     [3., 0., 1.]], dtype=torch.float64),
 tensor([127500, 106000, 178100, 140000]))

from mxnet import np X, y = np.array(inputs.values), np.array(targets.values) X, y

(array([[3., 0., 1.],
    [2., 0., 1.],
    [4., 1., 0.],
    [3., 0., 1.]], dtype=float64),
 array([127500, 106000, 178100, 140000], dtype=int64))

from jax import numpy as jnp X, y = jnp.array(inputs.values), jnp.array(targets.values) X, y

No GPU/TPU found, falling back to CPU. (Set TF_CPP_MIN_LOG_LEVEL=0 and rerun for more info.)

(Array([[3., 0., 1.],
    [2., 0., 1.],
    [4., 1., 0.],
    [3., 0., 1.]], dtype=float32),
 Array([127500, 106000, 178100, 140000], dtype=int32))

import tensorflow as tf X, y = tf.constant(inputs.values), tf.constant(targets.values) X, y

(<tf.Tensor: shape=(4, 3), dtype=float64, numpy=
 array([[3., 0., 1.],
    [2., 0., 1.],
    [4., 1., 0.],
    [3., 0., 1.]])>,
 <tf.Tensor: shape=(4,), dtype=int64, numpy=array([127500, 106000, 178100, 140000])>)

2.2.4. 討論

您現在知道如何對數據列進行分區、估算缺失變量以及將pandas數據加載到張量中。在第 5.7 節中，您將掌握更多數據處理技能。雖然這個速成課程讓事情變得簡單，但數據處理可能會變得棘手。例如，我們的數據集可能分布在從關系數據庫中提取的多個文件中，而不是到達單個 CSV 文件。例如，在電子商務應用程序中，客戶地址可能存在于一個表中，而購買數據則存在于另一個表中。此外，從業者還面臨著分類和數字以外的無數數據類型。其他數據類型包括文本字符串、圖像、音頻數據和點云。通常，需要先進的工具和高效的算法來防止數據處理成為機器學習管道中的最大瓶頸。當我們涉及計算機視覺和自然語言處理時，就會出現這些問題。最后，我們必須關注數據質量。現實世界的數據集經常受到異常值、傳感器錯誤測量和記錄錯誤的困擾，在將數據輸入任何模型之前必須解決這些問題。數據可視化工具，例如 seaborn、 Bokeh或 matplotlib可以幫助您手動檢查數據并形成關于您可能需要解決的問題的直覺。

2.2.5. 練習

嘗試從UCI 機器學習存儲庫加載數據集，例如 Abalone并檢查它們的屬性。其中有多少缺失值？變量的哪一部分是數字的、分類的或文本的？
嘗試按名稱而不是按列號索引和選擇數據列。有關索引的 Pandas 文檔包含有關如何執行此操作的更多詳細信息。
您認為您可以通過這種方式加載多大的數據集？可能有什么限制？提示：考慮讀取數據的時間、表示、處理和內存占用。在筆記本電腦上試試這個。如果您在服務器上試用它會發生什么變化？
您將如何處理具有大量類別的數據？如果類別標簽都是唯一的怎么辦？你應該包括后者嗎？
你能想到什么 pandas 的替代品？如何從文件加載 NumPy 張量？查看Pillow，Python 圖像庫。

審核編輯：湯梓紅

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

python

python

+關注

關注
56

文章
4799

瀏覽量
84812
預處理

預處理

+關注

關注
0

文章
33

瀏覽量
10508
pytorch

pytorch

+關注

關注
2

文章
808

瀏覽量
13249

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

PyTorch教程-2.2.數據預處理

2.2.1. 讀取數據集

2.2.2. 數據準備

2.2.3. 轉換為張量格式

2.2.4. 討論

2.2.5. 練習

評論

機器學習為什么需要數據預處理

請教大家一下關于數據預處理

Pytorch模型訓練實用PDF教程【中文】

Python數據預處理方法

數據探索與數據預處理

基于DSP CCS2.2實現指紋識別預處理系統

利用Python和PyTorch處理面向對象的數據集（1）

什么是大數據采集和預處理

那些年在pytorch上踩過的坑

那些年在pytorch上過的當

PyTorch教程之數據預處理

PyTorch入門須知PyTorch教程-2.2. 數據預處理

pytorch如何訓練自己的數據

PyTorch 數據加載與處理方法

Minitab 數據清理與預處理技巧