有声,好看的小说完本推荐,大主宰

在日常開發(fā)工作中，經(jīng)常會遇到這樣的一個問題：要對數(shù)據(jù)中的某個字段進行匹配，但這個字段有可能會有微小的差異。比如同樣是招聘崗位的數(shù)據(jù)，里面省份一欄有的寫“廣西”，有的寫“廣西壯族自治區(qū)”，甚至還有寫“廣西省”……為此不得不增加許多代碼來處理這些情況。

今天跟大家分享FuzzyWuzzy一個簡單易用的模糊字符串匹配工具包。讓你輕松解決煩惱的匹配問題！

前言

在處理數(shù)據(jù)的過程中，難免會遇到下面類似的場景，自己手里頭獲得的是簡化版的數(shù)據(jù)字段，但是要比對的或者要合并的卻是完整版的數(shù)據(jù)（有時候也會反過來）

最常見的一個例子就是：在進行地理可視化中，自己收集的數(shù)據(jù)只保留的縮寫，比如北京，廣西，新疆，西藏等，但是待匹配的字段數(shù)據(jù)卻是北京市，廣西壯族自治區(qū)，新疆維吾爾自治區(qū)，西藏自治區(qū)等，如下。

因此就需要有沒有一種方式可以很快速便捷的直接進行對應(yīng)字段的匹配并將結(jié)果單獨生成一列，就可以用到FuzzyWuzzy庫。

FuzzyWuzzy庫介紹

FuzzyWuzzy 是一個簡單易用的模糊字符串匹配工具包。它依據(jù) Levenshtein Distance 算法，計算兩個序列之間的差異。

Levenshtein Distance 算法，又叫 Edit Distance 算法，是指兩個字符串之間，由一個轉(zhuǎn)成另一個所需的最少編輯操作次數(shù)。許可的編輯操作包括將一個字符替換成另一個字符，插入一個字符，刪除一個字符。一般來說，編輯距離越小，兩個串的相似度越大。

這里使用的是Anaconda下的jupyter notebook編程環(huán)境，因此在Anaconda的命令行中輸入一下指令進行第三方庫安裝。

1 fuzz模塊

該模塊下主要介紹四個函數(shù)（方法），分別為：簡單匹配（Ratio）、非完全匹配（Partial Ratio）、忽略順序匹配（Token Sort Ratio）和去重子集匹配（Token Set Ratio）

注意：如果直接導(dǎo)入這個模塊的話，系統(tǒng)會提示warning，當(dāng)然這不代表報錯，程序依舊可以運行（使用的默認算法，執(zhí)行速度較慢），可以按照系統(tǒng)的提示安裝python-Levenshtein庫進行輔助，這有利于提高計算的速度。

1.1 簡單匹配（Ratio）

簡單的了解一下就行，這個不怎么精確，也不常用

fuzz.ratio("河南省","河南省")

output

100

fuzz.ratio("河南","河南省")

output

1.2 非完全匹配（Partial Ratio）

盡量使用非完全匹配，精度較高

fuzz.partial_ratio("河南省","河南省")

output

100

fuzz.partial_ratio("河南","河南省")

output

100

1.3 忽略順序匹配（Token Sort Ratio）

原理在于：以空格為分隔符，小寫化所有字母，無視空格外的其它標(biāo)點符號

fuzz.ratio("西藏自治區(qū)","自治區(qū)西藏")

output

50

fuzz.ratio('IloveYOU','YOULOVEI')

output

30

fuzz.token_sort_ratio("西藏自治區(qū)","自治區(qū)西藏")

output

100

fuzz.token_sort_ratio('IloveYOU','YOULOVEI')

output

100

1.4 去重子集匹配（Token Set Ratio）

相當(dāng)于比對之前有一個集合去重的過程，注意最后兩個，可理解為該方法是在token_sort_ratio方法的基礎(chǔ)上添加了集合去重的功能，下面三個匹配的都是倒序

fuzz.ratio("西藏西藏自治區(qū)","自治區(qū)西藏")

output

40
fuzz.token_sort_ratio("西藏西藏自治區(qū)","自治區(qū)西藏")

output

80
fuzz.token_set_ratio("西藏西藏自治區(qū)","自治區(qū)西藏")

output

100

fuzz這幾個ratio()函數(shù)（方法）最后得到的結(jié)果都是數(shù)字，如果需要獲得匹配度最高的字符串結(jié)果，還需要依舊自己的數(shù)據(jù)類型選擇不同的函數(shù)，然后再進行結(jié)果提取，如果但看文本數(shù)據(jù)的匹配程度使用這種方式是可以量化的，但是對于我們要提取匹配的結(jié)果來說就不是很方便了，因此就有了process模塊。

process模塊

用于處理備選答案有限的情況，返回模糊匹配的字符串和相似度。

2.1 extract提取多條數(shù)據(jù)

類似于爬蟲中select，返回的是列表，其中會包含很多匹配的數(shù)據(jù)

choices=["河南省","鄭州市","湖北省","武漢市"]
process.extract("鄭州",choices,limit=2)

output

[('鄭州市',90),('河南省',0)]

extract之后的數(shù)據(jù)類型是列表，即使limit=1，最后還是列表，注意和下面extractOne的區(qū)別

2.2extractOne提取一條數(shù)據(jù)

如果要提取匹配度最大的結(jié)果，可以使用extractOne，注意這里返回的是元組類型，還有就是匹配度最大的結(jié)果不一定是我們想要的數(shù)據(jù)，可以通過下面的示例和兩個實戰(zhàn)應(yīng)用體會一下

process.extractOne("鄭州",choices)

output

('鄭州市',90)
process.extractOne("北京",choices)

output

('湖北省',45)

3. 實戰(zhàn)應(yīng)用

這里舉兩個實戰(zhàn)應(yīng)用的小例子，第一個是公司名稱字段的模糊匹配，第二個是省市字段的模糊匹配

3.1 公司名稱字段模糊匹配

數(shù)據(jù)及待匹配的數(shù)據(jù)樣式如下：自己獲取到的數(shù)據(jù)字段的名稱很簡潔，并不是公司的全稱，因此需要進行兩個字段的合并

直接將代碼封裝為函數(shù)，主要是為了方便日后的調(diào)用，這里參數(shù)設(shè)置的比較詳細，執(zhí)行結(jié)果如下：

3.1.1參數(shù)講解

第一個參數(shù)df_1是自己獲取的欲合并的左側(cè)數(shù)據(jù)（這里是data變量）；

第二個參數(shù)df_2是待匹配的欲合并的右側(cè)數(shù)據(jù)（這里是company變量）；

第三個參數(shù)key1是df_1中要處理的字段名稱（這里是data變量里的‘公司名稱’字段）

第四個參數(shù)key2是df_2中要匹配的字段名稱（這里是company變量里的‘公司名稱’字段）

第五個參數(shù)threshold是設(shè)定提取結(jié)果匹配度的標(biāo)準(zhǔn)。注意這里就是對extractOne方法的完善，提取到的最大匹配度的結(jié)果并不一定是我們需要的，所以需要設(shè)定一個閾值來評判，這個值就為90，只有是大于等于90，這個匹配結(jié)果我們才可以接受

第六個參數(shù)，默認參數(shù)就是只返回兩個匹配成功的結(jié)果

返回值：為df_1添加‘matches’字段后的新的DataFrame數(shù)據(jù)

3.1.2 核心代碼講解

第一部分代碼如下，可以參考上面講解process.extract方法，這里就是直接使用，所以返回的結(jié)果m就是列表中嵌套元祖的數(shù)據(jù)格式，樣式為: [(‘鄭州市’, 90), (‘河南省’, 0)]，因此第一次寫入到’matches’字段中的數(shù)據(jù)也就是這種格式

注意，注意：元祖中的第一個是匹配成功的字符串，第二個就是設(shè)置的threshold參數(shù)比對的數(shù)字對象

s=df_2[key2].tolist()
m=df_1[key1].apply(lambdax:process.extract(x,s,limit=limit))
df_1['matches']=m

第二部分的核心代碼如下，有了上面的梳理，明確了‘matches’字段中的數(shù)據(jù)類型，然后就是進行數(shù)據(jù)的提取了，需要處理的部分有兩點需要注意的：

提取匹配成功的字符串，并對閾值小于90的數(shù)據(jù)填充空值

最后把數(shù)據(jù)添加到‘matches’字段

m2=df_1['matches'].apply(lambdax:[i[0]foriinxifi[1]>=threshold][0]iflen([i[0]foriinxifi[1]>=threshold])>0else'')
#要理解第一個‘matches’字段返回的數(shù)據(jù)類型是什么樣子的，就不難理解這行代碼了
#參考一下這個格式：[('鄭州市', 90), ('河南省', 0)]
df_1['matches']=m2
returndf_1

3.2 省份字段模糊匹配

自己的數(shù)據(jù)和待匹配的數(shù)據(jù)背景介紹中已經(jīng)有圖片顯示了，上面也已經(jīng)封裝了模糊匹配的函數(shù)，這里直接調(diào)用上面的函數(shù)，輸入相應(yīng)的參數(shù)即可，代碼以及執(zhí)行結(jié)果如下：

數(shù)據(jù)處理完成，經(jīng)過封裝后的函數(shù)可以直接放在自己自定義的模塊名文件下面，以后可以方便直接導(dǎo)入函數(shù)名即可，可以參考將自定義常用的一些函數(shù)封裝成可以直接調(diào)用的模塊方法。

4. 全部函數(shù)代碼

#模糊匹配

deffuzzy_merge(df_1,df_2,key1,key2,threshold=90,limit=2):
"""
:paramdf_1:thelefttabletojoin
:paramdf_2:therighttabletojoin
:paramkey1:keycolumnofthelefttable
:paramkey2:keycolumnoftherighttable
:paramthreshold:howclosethematchesshouldbetoreturnamatch,basedonLevenshteindistance
:paramlimit:theamountofmatchesthatwillgetreturned,thesearesortedhightolow
dataframewithbothskeysandmatches
"""
s=df_2[key2].tolist()

m=df_1[key1].apply(lambdax:process.extract(x,s,limit=limit))
df_1['matches']=m

m2=df_1['matches'].apply(lambdax:[i[0]foriinxifi[1]>=threshold][0]iflen([i[0]foriinxifi[1]>=threshold])>0else'')
df_1['matches']=m2

returndf_1

fromfuzzywuzzyimportfuzz
fromfuzzywuzzyimportprocess

df=fuzzy_merge(data,company,'公司名稱','公司名稱',threshold=90)
df

審核編輯：劉清

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

處理器

處理器

+關(guān)注

關(guān)注
68

文章
19404

瀏覽量
230921
字符串

字符串

+關(guān)注

關(guān)注
1

文章
585

瀏覽量
20584
python

python

+關(guān)注

關(guān)注
56

文章
4807

瀏覽量
84975
3D封裝

3D封裝

+關(guān)注

關(guān)注
7

文章
135

瀏覽量
27184

原文標(biāo)題：兩個好用到爆的 Python 模塊，建議收藏！

文章出處：【微信號：AndroidPush，微信公眾號：Android編程精選】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

利用兩個元件實現(xiàn) L 型網(wǎng)絡(luò)阻抗匹配

本文要點L型網(wǎng)絡(luò)阻抗匹配是一個簡單的濾波器，由兩個電抗元件組成。L型濾波器具有較寬的帶寬，但在載波頻率下響應(yīng)速度緩慢。設(shè)計人員可以組合多個L型濾波器，實現(xiàn)更穩(wěn)健的響應(yīng)以及更高的品質(zhì)因數(shù)。阻抗匹

發(fā)表于 12-20 18:57 ?372次閱讀

使用TPS546C23兩個獨立的單相評估模塊

電子發(fā)燒友網(wǎng)站提供《使用TPS546C23兩個獨立的單相評估模塊.pdf》資料免費下載

發(fā)表于 12-07 14:08 ?0次下載

手寫圖像模板匹配算法在OpenCV中的實現(xiàn)

OpenCV中的模板匹配是支持基于NCC相似度查找的，但是不是很好用，一個主要的原因是查找最大閾值，只能匹配一個，自己比對閾值，又導(dǎo)致無法正

發(fā)表于 11-11 10:12 ?314次閱讀

Python常用函數(shù)大全

在 Python 世界里，有一些寶藏函數(shù)和模塊，它們可以讓你編程更輕松、代碼更高效。這篇文章將帶你一一認識這些神器，讓你的開發(fā)生活瞬間輕松不少！

發(fā)表于 10-27 17:20 ?327次閱讀

單相電機兩個繞組都在定子上嗎

單相電機的兩個繞組，即起動線圈（或稱為輔助繞組、副繞組）和運行線圈（或稱為主繞組），都位于定子上。這兩個繞組在電機中起著關(guān)鍵作用，共同協(xié)作以產(chǎn)生旋轉(zhuǎn)磁場，從而使電機能夠運轉(zhuǎn)。單相電機通常由一個

發(fā)表于 09-03 15:10 ?1027次閱讀

ad如何設(shè)置兩個元器件的距離

在Altium Designer（簡稱AD）中設(shè)置兩個元器件之間的距離，主要是通過設(shè)置元器件間的安全間距（Clearance）規(guī)則來實現(xiàn)的。這個規(guī)則定義了元器件之間、元器件與走線之間以及其他設(shè)計元素

發(fā)表于 09-02 15:31 ?8367次閱讀

觸發(fā)器的兩個穩(wěn)定狀態(tài)分別是什么

觸發(fā)器作為數(shù)字電路中的基本邏輯單元，具有兩個穩(wěn)定狀態(tài)，這兩個狀態(tài)通常用于表示二進制數(shù)碼中的0和1。

發(fā)表于 08-12 11:01 ?1593次閱讀

雙穩(wěn)態(tài)電路的兩個穩(wěn)定狀態(tài)是什么

雙穩(wěn)態(tài)電路是一種具有兩個穩(wěn)定狀態(tài)的電子電路，廣泛應(yīng)用于數(shù)字電路、通信系統(tǒng)、存儲器等領(lǐng)域。雙穩(wěn)態(tài)電路的基本概念雙穩(wěn)態(tài)電路是一種具有兩個穩(wěn)定狀態(tài)的電路，即在沒有外部輸入信號的情況下，電路可以保持在

發(fā)表于 08-11 15:00 ?1699次閱讀

雙穩(wěn)態(tài)觸發(fā)器的兩個基本性質(zhì)是什么

雙穩(wěn)態(tài)觸發(fā)器（Bistable Trigger）是一種具有兩個穩(wěn)定狀態(tài)的邏輯電路，廣泛應(yīng)用于數(shù)字電路設(shè)計中。它具有兩個基本性質(zhì)：記憶性和切換性。一、雙穩(wěn)態(tài)觸發(fā)器的基本概念 1.1 雙穩(wěn)態(tài)觸發(fā)器

發(fā)表于 08-11 10:08 ?807次閱讀

如何使用SPI或UART連接兩個ESP模塊？

我使用 ESP-WROOM-02 模塊進行我們的項目。根據(jù)我們的要求，我們需要使用 UART 或 SPI 將兩個 ESP 模塊與一個 ESP 模塊

發(fā)表于 07-19 16:08

藍牙Mesh模塊組網(wǎng)時是一個信號還是兩個信號？

隨著科技的不斷發(fā)展，智能家居、物聯(lián)網(wǎng)等新興領(lǐng)域越來越受到人們的關(guān)注。在這個領(lǐng)域中，藍牙Mesh組網(wǎng)模塊作為一種關(guān)鍵技術(shù)，其性能和作用備受矚目。那么，藍牙Mesh組網(wǎng)模塊究竟是一個信號還是兩個

發(fā)表于 05-24 15:14 ?1083次閱讀

兩個銅片可以形成原電池嗎

兩個銅片本身不能形成原電池，因為原電池的工作原理依賴于兩個不同電位的電極材料之間的氧化還原反應(yīng)。

發(fā)表于 05-21 16:23 ?1120次閱讀

放大器器件手冊上為什么會有MAG和MSG這兩個指標(biāo)呢？

一個需要外匹配的管子的手冊上，經(jīng)常會有MAG和MSG這兩個指標(biāo)。

發(fā)表于 03-18 18:21 ?4050次閱讀

arcgis中如何關(guān)聯(lián)兩個屬性表

字段，這是進行關(guān)聯(lián)的前提。關(guān)聯(lián)字段是兩個表中共有的字段，通過這個字段可以將兩個表中的數(shù)據(jù)進行匹配和關(guān)聯(lián)。打開ArcMap軟件，加載需要進行關(guān)聯(lián)的兩個數(shù)據(jù)表。可以通過“添加數(shù)據(jù)”功能加

發(fā)表于 02-25 11:01 ?4427次閱讀

兩個電位器兩地控制一個變頻器，如何接線？

兩個電位器兩地控制一個變頻器，如何接線？接線方式如下： 1. 首先，明確需要使用的電器設(shè)備。在這個場景中，我們需要兩個電位器（即可變電阻器）和一個

發(fā)表于 02-05 10:13 ?5678次閱讀

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

兩個好用到爆的Python模塊輕松解決煩惱的匹配問題

評論

利用兩個元件實現(xiàn) L 型網(wǎng)絡(luò)阻抗匹配

使用TPS546C23兩個獨立的單相評估模塊

手寫圖像模板匹配算法在OpenCV中的實現(xiàn)

Python常用函數(shù)大全

單相電機兩個繞組都在定子上嗎

ad如何設(shè)置兩個元器件的距離

觸發(fā)器的兩個穩(wěn)定狀態(tài)分別是什么

雙穩(wěn)態(tài)電路的兩個穩(wěn)定狀態(tài)是什么

雙穩(wěn)態(tài)觸發(fā)器的兩個基本性質(zhì)是什么

如何使用SPI或UART連接兩個ESP模塊？

藍牙Mesh模塊組網(wǎng)時是一個信號還是兩個信號？

兩個銅片可以形成原電池嗎

放大器器件手冊上為什么會有MAG和MSG這兩個指標(biāo)呢？

arcgis中如何關(guān)聯(lián)兩個屬性表

兩個電位器兩地控制一個變頻器，如何接線？

搜索歷史

兩個好用到爆的Python模塊 輕松解決煩惱的匹配問題

評論

兩個好用到爆的Python模塊輕松解決煩惱的匹配問題