已完结小说排行榜,欢乐颂第二季,我欲封天耳根小说

日常用Python做數據分析最常用到的就是查詢篩選了，按各種條件、各種維度以及組合挑出我們想要的數據，以方便我們分析挖掘。東哥總結了日常查詢和篩選常用的種騷操作，供各位學習參考。本文采用sklearn的boston數據舉例介紹。

fromsklearnimportdatasets
importpandasaspd

boston=datasets.load_boston()
df=pd.DataFrame(boston.data,columns=boston.feature_names)

1. []

第一種是最快捷方便的，直接在dataframe的[]中寫篩選的條件或者組合條件。比如下面，想要篩選出大于NOX這變量平均值的所有數據，然后按NOX降序排序。

df[df['NOX']>df['NOX'].mean()].sort_values(by='NOX',ascending=False).head()

當然，也可以使用組合條件，條件之間使用邏輯符號& |等。比如下面這個例子除了上面條件外再加上且條件CHAS為1，注意邏輯符號分開的條件要用()隔開。

df[(df['NOX']>df['NOX'].mean())&(df['CHAS']==1)].sort_values(by='NOX',ascending=False).head()

2. loc/iloc

除[]之外，loc/iloc應該是最常用的兩種查詢方法了。loc按標簽值（列名和行索引取值）訪問，iloc按數字索引訪問，均支持單值訪問或切片查詢。除了可以像[]按條件篩選數據以外，loc還可以指定返回的列變量，**從行和列兩個維度篩選。**比如下面這個例子，按條件篩選出數據，并篩選出指定變量，然后賦值。

df.loc[(df['NOX']>df['NOX'].mean()),['CHAS']]=2

3. isin

上面我們篩選條件< > == !=都是個范圍，但很多時候是需要鎖定某些具體的值的，這時候就需要isin了。比如我們要限定NOX取值只能為0.538,0.713,0.437中時。

df.loc[df['NOX'].isin([0.538,0.713,0.437]),:].sample(5)

當然，也可以做取反操作，在篩選條件前加~符號即可。

df.loc[~df['NOX'].isin([0.538,0.713,0.437]),:].sample(5)

4. str.contains

上面的舉例都是數值大小比較的篩選條件，除數值以外當然也有字符串的查詢需求。pandas里實現字符串的模糊篩選，可以用.str.contains()來實現，有點像在SQL語句里用的是like。下面利用titanic的數據舉例，篩選出人名中包含Mrs或者Lily的數據，|或邏輯符號在引號內。

train.loc[train['Name'].str.contains('Mrs|Lily'),:].head()

.str.contains()中還可以設置正則化篩選邏輯。

case=True：使用case指定區分大小寫
na=True：就表示把有NAN的轉換為布爾值True
flags=re.IGNORECASE：標志傳遞到re模塊，例如re.IGNORECASE
regex=True：regex ：如果為True，則假定第一個字符串是正則表達式，否則還是字符串

5. where/mask

在SQL里，我們知道where的功能是要把滿足條件的篩選出來。pandas中where也是篩選，但用法稍有不同。where接受的條件需要是布爾類型的，如果不滿足匹配條件，就被賦值為默認的NaN或其他指定值。舉例如下，將Sex為male當作篩選條件，cond就是一列布爾型的Series，非male的值就都被賦值為默認的NaN空值了。

cond=train['Sex']=='male'
train['Sex'].where(cond,inplace=True)
train.head()

也可以用other賦給指定值。

cond=train['Sex']=='male'
train['Sex'].where(cond,other='FEMALE',inplace=True)

甚至還可以寫組合條件。

train['quality']=''
traincond1=train['Sex']=='male'
cond2=train['Age']>25

train['quality'].where(cond1&cond2,other='低質量男性',inplace=True)

mask和where是一對操作，與where正好反過來。

train['quality'].mask(cond1&cond2,other='低質量男性',inplace=True)

6. query

這是一種非常優雅的篩選數據方式。所有的篩選操作都在''之內完成。

#常用方式
train[train.Age>25]
#query方式
train.query('Age>25')

上面的兩種方式效果上是一樣的。再比如復雜點的，加入上面的str.contains用法的組合條件，注意條件里有''時，兩邊要用""包住。

train.query("Name.str.contains('William')&Age>25")

在query里還可以通過@來設定變量。

name='William'
train.query("Name.str.contains(@name)")

7. filter

filter是另外一個獨特的篩選功能。filter不篩選具體數據，而是篩選特定的行或列。它支持三種篩選方式：

items：固定列名
regex：正則表達式
like：以及模糊查詢
axis：控制是行index或列columns的查詢

下面舉例介紹下。

train.filter(items=['Age','Sex'])

train.filter(regex='S',axis=1)#列名包含S的

train.filter(like='2',axis=0)#索引中有2的

train.filter(regex='^2',axis=0).filter(like='S',axis=1)

8. any/all

any方法意思是，如果至少有一個值為True結果便為True，all需要所有值為True結果才為True，比如下面這樣。

>>train['Cabin'].all()
>>False
>>train['Cabin'].any()
>>True

any和all一般是需要和其它操作配合使用的，比如查看每列的空值情況。

train.isnull().any(axis=0)

再比如查看含有空值的行數。

>>>train.isnull().any(axis=1).sum()
>>>708

編輯：jq

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

數據

數據

+關注

關注
8

文章
7104

瀏覽量
89298
SQL

SQL

+關注

關注
1

文章
771

瀏覽量
44192
python

python

+關注

關注
56

文章
4801

瀏覽量
84883

原文標題：pandas 篩選數據的 8 個騷操作

文章出處：【微信號：DBDevs，微信公眾號：數據分析與開發】歡迎添加關注！文章轉載請注明出處。

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

pandas篩選數據的8個小技巧

1. []

2. loc/iloc

3. isin

4. str.contains

5. where/mask

6. query

7. filter

8. any/all

評論

DAC3283到底是8位的LVDS輸入數據還是16位的LVDS輸入數據？

如何進行元器件篩選？

Kaggle知識點：使用大模型進行特征篩選

ADS131M08采集數據8個通道中有個別通道數據不準，為什么？

RAPIDS cuDF將pandas提速近150倍

使用原代腫瘤細胞進行藥物篩選的數字微流控系統

PCIe實時運動控制卡的雙盤視覺篩選機上位機開發應用

PCM1865能否通過配置，同時采集4個立體聲（即8個聲道）的音頻數據？

pytorch如何訓練自己的數據

UL Solutions在日本新設電池外殼材料篩選實驗室

用STM8做一個用于抽取頻譜的東西, 如何采樣128個點用于FFT數據計算？

stm32串口dma發送數據，發送的數據一直為數組的第一個字節8個1為什么？

STM8 UART1只能接收到5個數據中的最后一個，為什么？

為什么stm32F407ZET6 CAN1的14-28篩選器不起作用？

mapgis屬性篩選表達式