在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

分享pandas中超級好用的str矢量化字符串函數(shù)

數(shù)據(jù)分析與開發(fā) ? 來源:數(shù)據(jù)分析與統(tǒng)計學(xué)之美 ? 作者:黃偉呢 ? 2021-04-13 10:37 ? 次閱讀

本文介紹

你有沒有這樣一種感覺,為什么到自己手上的數(shù)據(jù),總是亂七八糟? 作為一個數(shù)據(jù)分析師來說,數(shù)據(jù)清洗是必不可少的環(huán)節(jié)。有時候由于數(shù)據(jù)太亂,往往需要花費我們很多時間去處理它。因此掌握更多的數(shù)據(jù)清洗方法,會讓你的能力調(diào)高100倍。 本文基于此,講述pandas中超級好用的str矢量化字符串函數(shù),學(xué)了之后,瞬間感覺自己的數(shù)據(jù)清洗能力提高了。

1個數(shù)據(jù)集,16個Pandas函數(shù)

數(shù)據(jù)集是黃同學(xué)精心為大家編造,只為了幫助大家學(xué)習(xí)到知識。數(shù)據(jù)集如下:

importpandasaspd df={'姓名':['黃同學(xué)','黃至尊','黃老邪','陳大美','孫尚香'], '英文名':['Huangtong_xue','huangzhi_zun','HuangLao_xie','ChenDa_mei','sunshang_xiang'], '性別':['男','women','men','女','男'], '身份證':['463895200003128433','429475199912122345','420934199110102311','431085200005230122','420953199509082345'], '身高':['mid:175_good','low:165_bad','low:159_bad','high:180_verygood','low:172_bad'], '家庭住址':['湖北廣水','河南信陽','廣西桂林','湖北孝感','廣東廣州'], '電話號碼':['13434813546','19748672895','16728613064','14561586431','19384683910'], '收入':['1.1萬','8.5千','0.9萬','6.5千','2.0萬']} df=pd.DataFrame(df) df 結(jié)果如下:

bcebfca8-9be2-11eb-8b86-12bb97331649.png

觀察上述數(shù)據(jù),數(shù)據(jù)集是亂的。接下來,我們就用16個Pandas來對上述數(shù)據(jù),進行數(shù)據(jù)清洗。

① cat函數(shù):用于字符串的拼接

df["姓名"].str.cat(df["家庭住址"],sep='-'*3) 結(jié)果如下:

bd027afa-9be2-11eb-8b86-12bb97331649.png

② contains:判斷某個字符串是否包含給定字符

df["家庭住址"].str.contains("廣") 結(jié)果如下:

bd0e3d40-9be2-11eb-8b86-12bb97331649.png

③ startswith/endswith:判斷某個字符串是否以…開頭/結(jié)尾

#第一個行的“黃偉”是以空格開頭的 df["姓名"].str.startswith("黃") df["英文名"].str.endswith("e") 結(jié)果如下:

bd1e5ba8-9be2-11eb-8b86-12bb97331649.png

④ count:計算給定字符在字符串中出現(xiàn)的次數(shù)

df["電話號碼"].str.count("3") 結(jié)果如下:

bd2bac22-9be2-11eb-8b86-12bb97331649.png

⑤ get:獲取指定位置的字符串

df["姓名"].str.get(-1) df["身高"].str.split(":") df["身高"].str.split(":").str.get(0) 結(jié)果如下:

bd3eebde-9be2-11eb-8b86-12bb97331649.png

⑥ len:計算字符串長度

df["性別"].str.len() 結(jié)果如下:

bd502714-9be2-11eb-8b86-12bb97331649.png

⑦ upper/lower:英文大小寫轉(zhuǎn)換

df["英文名"].str.upper() df["英文名"].str.lower() 結(jié)果如下:

bd5d8d82-9be2-11eb-8b86-12bb97331649.png

⑧ pad+side參數(shù)/center:在字符串的左邊、右邊或左右兩邊添加給定字符

df["家庭住址"].str.pad(10,fillchar="*")#相當(dāng)于ljust() df["家庭住址"].str.pad(10,side="right",fillchar="*")#相當(dāng)于rjust() df["家庭住址"].str.center(10,fillchar="*") 結(jié)果如下:

bd691940-9be2-11eb-8b86-12bb97331649.png

⑨ repeat:重復(fù)字符串幾次

df["性別"].str.repeat(3) 結(jié)果如下:

bd73b710-9be2-11eb-8b86-12bb97331649.png

⑩ slice_replace:使用給定的字符串,替換指定的位置的字符

df["電話號碼"].str.slice_replace(4,8,"*"*4) 結(jié)果如下:

bd814ac4-9be2-11eb-8b86-12bb97331649.png

? replace:將指定位置的字符,替換為給定的字符串

df["身高"].str.replace(":","-") 結(jié)果如下:

? replace:將指定位置的字符,替換為給定的字符串(接受正則表達式)

replace中傳入正則表達式,才叫好用;

先不要管下面這個案例有沒有用,你只需要知道,使用正則做數(shù)據(jù)清洗多好用;

df["收入"].str.replace("d+.d+","正則") 結(jié)果如下:

bd9fe4de-9be2-11eb-8b86-12bb97331649.png

? split方法+expand參數(shù):搭配join方法功能很強大

#普通用法 df["身高"].str.split(":") #split方法,搭配expand參數(shù) df[["身高描述","final身高"]]=df["身高"].str.split(":",expand=True) df #split方法搭配join方法 df["身高"].str.split(":").str.join("?"*5) 結(jié)果如下:

bdacbbb4-9be2-11eb-8b86-12bb97331649.png

? strip/rstrip/lstrip:去除空白符、換行符

df["姓名"].str.len() df["姓名"]=df["姓名"].str.strip() df["姓名"].str.len() 結(jié)果如下:

bde4a2ea-9be2-11eb-8b86-12bb97331649.png

? findall:利用正則表達式,去字符串中匹配,返回查找結(jié)果的列表

findall使用正則表達式,做數(shù)據(jù)清洗,真的很香!

df["身高"] df["身高"].str.findall("[a-zA-Z]+") 結(jié)果如下:

bdf09636-9be2-11eb-8b86-12bb97331649.png

? extract/extractall:接受正則表達式,抽取匹配的字符串(一定要加上括號)

df["身高"].str.extract("([a-zA-Z]+)") #extractall提取得到復(fù)合索引 df["身高"].str.extractall("([a-zA-Z]+)") #extract搭配expand參數(shù) df["身高"].str.extract("([a-zA-Z]+).*?([a-zA-Z]+)",expand=True) 結(jié)果如下:

be02c400-9be2-11eb-8b86-12bb97331649.png

今天的文章,就講述到這里,希望能夠?qū)δ阌兴鶐椭?/p>

編輯:jq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 數(shù)據(jù)
    +關(guān)注

    關(guān)注

    8

    文章

    7067

    瀏覽量

    89116
  • 函數(shù)
    +關(guān)注

    關(guān)注

    3

    文章

    4333

    瀏覽量

    62696
  • 矢量化
    +關(guān)注

    關(guān)注

    0

    文章

    5

    瀏覽量

    6216

原文標(biāo)題:詳解16個 pandas 函數(shù),讓你的 “數(shù)據(jù)清洗” 能力提高100倍!

文章出處:【微信號:DBDevs,微信公眾號:數(shù)據(jù)分析與開發(fā)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    base64字符串轉(zhuǎn)換為二進制文件

    Base64是一種編碼方法,用于將二進制數(shù)據(jù)轉(zhuǎn)換為ASCII字符串。這種編碼通常用于在不支持二進制數(shù)據(jù)的系統(tǒng)傳輸數(shù)據(jù),例如電子郵件或網(wǎng)頁。將Base64字符串轉(zhuǎn)換為二進制文件的過程相對簡單,但需要
    的頭像 發(fā)表于 11-10 10:55 ?1231次閱讀

    MATLAB(5)--字符串處理

    :兩個字符串里的每個字符依次按ASCII值大小逐個進行比較,比較的結(jié)果是一個數(shù)值向量,向量的元素為1或者0。 字符串比較函數(shù)用于判斷
    發(fā)表于 09-06 10:22

    labview字符串數(shù)組轉(zhuǎn)化為數(shù)值數(shù)組

    在LabVIEW,將字符串數(shù)組轉(zhuǎn)換為數(shù)值數(shù)組是一項常見的任務(wù),尤其是在處理數(shù)據(jù)采集、信號處理或用戶輸入時。 1. 理解LabVIEW的數(shù)據(jù)類型 在開始之前,了解LabVIEW的數(shù)據(jù)類型是非
    的頭像 發(fā)表于 09-04 17:47 ?2435次閱讀

    labview字符串如何轉(zhuǎn)換為16進制字符串

    在LabVIEW,將字符串轉(zhuǎn)換為16進制字符串是一個常見的需求,尤其是在處理數(shù)據(jù)通信和硬件接口時。LabVIEW提供了多種方法來實現(xiàn)這一轉(zhuǎn)換,包括使用內(nèi)置函數(shù)、編寫VI(Virtua
    的頭像 發(fā)表于 09-04 15:54 ?2589次閱讀

    labview如何實現(xiàn)字符串換行

    1. 字符串換行的基本概念 在LabVIEW字符串換行通常指的是在字符串插入換行符,使得字符串
    的頭像 發(fā)表于 09-04 15:47 ?1779次閱讀

    labview如何實現(xiàn)字符串選擇輸出

    在LabVIEW實現(xiàn)字符串選擇輸出是一項常見的任務(wù),它涉及到字符串處理、條件判斷和用戶界面設(shè)計等多個方面。由于LabVIEW是一種圖形化編程語言,其編程方式與傳統(tǒng)的文本編程語言有所不同,因此實現(xiàn)
    的頭像 發(fā)表于 09-04 15:44 ?970次閱讀

    labview中常用的字符串函數(shù)有哪些?

    在LabVIEW,常用的字符串函數(shù)廣泛覆蓋了對字符串的各種操作,包括但不限于格式化、搜索、替換、連接、計算長度等。以下是一些常用的字符串
    的頭像 發(fā)表于 09-04 15:43 ?792次閱讀

    labview字符串的四種表示各有什么特點

    。在LabVIEW字符串是一種基本的數(shù)據(jù)類型,用于表示文本信息。字符串在LabVIEW中有多種表示方式,每種方式都有其特定的應(yīng)用場景和特點。以下是對LabVIEW四種
    的頭像 發(fā)表于 09-04 15:40 ?604次閱讀

    銳評Ruby 3.4.0 默認啟用字符串字面量凍結(jié)功能

    據(jù)悉,Ruby自2.3版起引入了“凍結(jié)”機制,通過使用frozen_string_literal: true魔法注釋,可令文件內(nèi)所有字符串字面量默認為凍結(jié)狀態(tài),防止開發(fā)過程無意修改字符串,提高代碼穩(wěn)定性與性能,降低內(nèi)存占用。
    的頭像 發(fā)表于 05-17 15:44 ?395次閱讀

    如何提取串口接收字符串數(shù)組里的某個字符串?

    條(有時候二十多條不定)響應(yīng)字符串指令,我是用一個字符串數(shù)組來接收這些返回來的指令的。我現(xiàn)在只需要讀取數(shù)組里的某一條指令,應(yīng)該怎么把它提取出來????有哪位前輩懂的,希望能提供點幫助。我找了好久找到一個函數(shù)
    發(fā)表于 04-22 06:05

    鴻蒙TypeScript學(xué)習(xí)第10天:【String(字符串)】

    String 對象用于處理文本(字符串)。
    的頭像 發(fā)表于 04-08 14:32 ?832次閱讀
    鴻蒙TypeScript學(xué)習(xí)第10天:【String(<b class='flag-5'>字符串</b>)】

    C語言字符串編譯函數(shù)介紹

    在C語言中,字符串實際上是使用null字符O'終止的一維字符數(shù)組。因此,一個以null結(jié)尾的字符串,包含了組成字符串
    的頭像 發(fā)表于 03-07 16:18 ?519次閱讀
    C語言<b class='flag-5'>字符串</b>編譯<b class='flag-5'>函數(shù)</b>介紹

    output函數(shù)怎么用

    輸出到標(biāo)準(zhǔn)輸出(通常是控制臺窗口)。 在 Python ,你可以使用 print 函數(shù)輸出任何你想要查看的內(nèi)容,包括字符串、變量等。以下是使用 print 函數(shù)的幾個示例: 輸出
    的頭像 發(fā)表于 02-23 14:21 ?1273次閱讀

    USB字符串描述符里面的序列號字符串到底是什么東西?

    在設(shè)備描述符里面,有一個表示序列號字符串描述符的編號,請問這個序列號字符串的描述符是什么東西呢? 廠商字符串和設(shè)備字符串都能理解,而且在電腦的“設(shè)備與打印機”里面都找到了。但請問這個
    發(fā)表于 01-24 08:06

    labview二進制字符串轉(zhuǎn)數(shù)值

    字符串是一種常見的數(shù)據(jù)類型,它表示了以二進制形式存儲的數(shù)據(jù)。當(dāng)我們需要將這些二進制字符串轉(zhuǎn)換為數(shù)值時,LabVIEW提供了一些常用的函數(shù)和方法,可以幫助我們完成這個任務(wù)。 首先,我們需要明確二進制
    的頭像 發(fā)表于 01-05 16:20 ?2757次閱讀
    主站蜘蛛池模板: 狠狠操夜夜爽| 深夜动态福利gif动态进| 日日操狠狠操| 手机在线观看视频你懂的| 特黄特色大片免费视频大全| 视频一本大道香蕉久在线播放 | 五月婷婷丁香| 天堂中文在线观看| 色多多在线观看高清免费| 人人做人人爽| 久久国产精品永久免费网站| 国产精品毛片久久久久久久| www.亚洲色图.com| 天天摸夜夜添夜夜添国产| 久久人人爽爽爽人久久久| 2018国产精品| 亚洲成人毛片| 亚洲天堂ww| 日韩毛片高清免费| 韩国在线免费视频| 午夜精品久久久久久久99| 久久久午夜| 又粗又大的机巴好爽欧美| 最新丁香六月| 日韩三级精品| 国外免费一级| 天天做天天干| 成人黄色一级片| 亚洲免费区| 天堂在线观看视频观看www| 美女淫| 日本欧美一区二区三区不卡视频| 久久精品视频热| 四虎新网址| 红怡院欧洲| 天天爽夜夜爽免费看| baoyu168成人免费视频| 九九re6精品视频在线观看| 色男人的天堂| 国产激爽大片在线播放| 日在线视频|