導(dǎo)語
Polars 是一個(gè)使用 Apache Arrow 列格式作為內(nèi)存模型,用Rust實(shí)現(xiàn)的,在Rust, Python以及Node.js中均可使用的速度極快的數(shù)據(jù)幀庫。
它有以下幾個(gè)特點(diǎn):
了解更多內(nèi)容可以點(diǎn)擊這個(gè)用戶指南[1]。
Python代碼示例
>>> df = pl.DataFrame(
... {
... "A": [1, 2, 3, 4, 5],
... "fruits": ["banana", "banana", "apple", "apple", "banana"],
... "B": [5, 4, 3, 2, 1],
... "cars": ["beetle", "audi", "beetle", "beetle", "beetle"],
... }
... )
# embarrassingly parallel execution
# very expressive query language
>>> (
... df
... .sort("fruits")
... .select(
... [
... "fruits",
... "cars",
... pl.lit("fruits").alias("literal_string_fruits"),
... pl.col("B").filter(pl.col("cars") == "beetle").sum(),
... pl.col("A").filter(pl.col("B") > 2).sum().over("cars").alias("sum_A_by_cars"), # groups by "cars"
... pl.col("A").sum().over("fruits").alias("sum_A_by_fruits"), # groups by "fruits"
... pl.col("A").reverse().over("fruits").alias("rev_A_by_fruits"), # groups by "fruits
... pl.col("A").sort_by("B").over("fruits").alias("sort_A_by_B_by_fruits"), # groups by "fruits"
... ]
... )
... )
shape: (5, 8)
┌──────────┬──────────┬──────────────┬─────┬─────────────┬─────────────┬─────────────┬─────────────┐
│ fruits ┆ cars ┆ literal_stri ┆ B ┆ sum_A_by_ca ┆ sum_A_by_fr ┆ rev_A_by_fr ┆ sort_A_by_B │
│ --- ┆ --- ┆ ng_fruits ┆ --- ┆ rs ┆ uits ┆ uits ┆ _by_fruits │
│ str ┆ str ┆ --- ┆ i64 ┆ --- ┆ --- ┆ --- ┆ --- │
│ ┆ ┆ str ┆ ┆ i64 ┆ i64 ┆ i64 ┆ i64 │
╞══════════╪══════════╪══════════════╪═════╪═════════════╪═════════════╪═════════════╪═════════════╡
│ "apple" ┆ "beetle" ┆ "fruits" ┆ 11 ┆ 4 ┆ 7 ┆ 4 ┆ 4 │
├??????????┼??????????┼??????????????┼?????┼?????????????┼?????????????┼?????????????┼?????????????┤
│ "apple" ┆ "beetle" ┆ "fruits" ┆ 11 ┆ 4 ┆ 7 ┆ 3 ┆ 3 │
├??????????┼??????????┼??????????????┼?????┼?????????????┼?????????????┼?????????????┼?????????????┤
│ "banana" ┆ "beetle" ┆ "fruits" ┆ 11 ┆ 4 ┆ 8 ┆ 5 ┆ 5 │
├??????????┼??????????┼??????????????┼?????┼?????????????┼?????????????┼?????????????┼?????????????┤
│ "banana" ┆ "audi" ┆ "fruits" ┆ 11 ┆ 2 ┆ 8 ┆ 2 ┆ 2 │
├??????????┼??????????┼??????????????┼?????┼?????????????┼?????????????┼?????????????┼?????????????┤
│ "banana" ┆ "beetle" ┆ "fruits" ┆ 11 ┆ 4 ┆ 8 ┆ 1 ┆ 1 │
└──────────┴──────────┴──────────────┴─────┴─────────────┴─────────────┴─────────────┴─────────────┘
性能
Polars速度非常快,事實(shí)上,它是目前性能最好的解決方案之一。具體可參見h2oai's db基準(zhǔn)測(cè)試結(jié)果[2]。
此處我們自己用一些示例代碼來對(duì)比python中pandas和polars處理數(shù)據(jù)的速度差距。
importpandasaspd
importpolarsaspl
importtimeit
#讀取時(shí)間對(duì)比
start_df=timeit.default_timer()
df=pd.read_csv("/Users/lenskit/Desktop/aa.csv")
df=df.sort_values("company_name",ascending=False).head()
stop_df=timeit.default_timer()
print('time:',stop_df-start_df)
start_pl=timeit.default_timer()
data=pl.read_csv("/Users/lenskit/Desktop/aa.csv")
data.sort(by="company_name",reverse=True).head()
stop_pl=timeit.default_timer()
print('time1:',stop_pl-start_pl)
#縱向拼接時(shí)間對(duì)比
start_df1=timeit.default_timer()
df_1=pd.read_csv('/Users/lenskit/Desktop/aa.csv')
df_2=pd.read_csv('/Users/lenskit/Desktop/bb.csv')
df_1.append(df_2,ignore_index=True)
stop_df1=timeit.default_timer()
print('time2:',stop_df1-start_df1)
start_pl1=timeit.default_timer()
pl_1=pl.read_csv('/Users/lenskit/Desktop/aa.csv')
pl_2=pl.read_csv('/Users/lenskit/Desktop/bb.csv')
pl_1.vstack(pl_2)
stop_pl1=timeit.default_timer()
print('time3:',stop_pl1-start_pl1)
time:5.088931238
time1:0.8967700230000002
time2:4.707102063
time3:0.639797883
可以看到在讀取文件上,polars比pandas速度快了5倍多,在數(shù)據(jù)縱向拼接上,polars比pandas快了有7倍多。
Python安裝
用如下語句安裝最新的polars版本:
$pip3install-Upolars[pyarrow]
目前polars的更新頻率很高(每周/每隔幾天),所以最好定期更新一下polars來獲得最新的錯(cuò)誤修復(fù)/功能。
Rust安裝
您可以從crates.io獲取最新版本,或者如果你想使用最新的功能/性能改進(jìn),可以用如下命令指向版本的master分支。
polars={git="https://github.com/pola-rs/polars",rev="" }
注意需要Rust version >=1.58
文檔
想知道Polars支持的所有功能嗎?閱讀文檔!
Python
-
安裝指南:
$ pip3 install polars
-
Python文檔[3]
-
用戶指南[4]
Rust
-
Rust文件(主分支)[5]
-
用戶指南[6]
Node
-
安裝指南:
yarn install nodejs-polars
-
Node文檔[7]
-
用戶指南[8]
[Python]: 從源代碼編譯polars
如果你想要獲取最前沿的版本或最大的性能,你應(yīng)該從源代碼編譯Polar。
這可以通過按順序執(zhí)行以下步驟來完成:
-
1、安裝最新的Rust編譯器[9]
-
2、安裝maturin[10]:
$ pip3 install maturin
-
3、選擇以下任一:
-
最快的二進(jìn)制文件,非常長的編譯時(shí)間:
-
$ cd py-polars && maturin develop --rustc-extra-args="-C target-cpu=native" --release
-
較快的二進(jìn)制文件,短一些的編譯時(shí)間:
-
$ cd py-polars && maturin develop --rustc-extra-args="-C codegen-units=16 -C lto=
需要注意的是,Python實(shí)現(xiàn)的Rust crate被稱為py-polars
,以區(qū)別于Rust crate包polars
本身。然而,Python包和Python模塊都被命名為polars
,所以你可以pip install polars
和import polars
。
Arrow2
Polars已經(jīng)轉(zhuǎn)移到arrow2[11]。Arrow2是Apache Arrow Columnar Format[12]更快、更安全的實(shí)現(xiàn)。Arrow2還具有更細(xì)粒度的代碼庫,有助于減少編譯器膨脹。
審核編輯:湯梓紅
-
python
+關(guān)注
關(guān)注
56文章
4797瀏覽量
84683 -
數(shù)據(jù)幀
+關(guān)注
關(guān)注
0文章
46瀏覽量
6741 -
Rust
+關(guān)注
關(guān)注
1文章
228瀏覽量
6607
原文標(biāo)題:6.6K Star!比 Pandas 快很多的數(shù)據(jù)處理庫
文章出處:【微信號(hào):LinuxHub,微信公眾號(hào):Linux愛好者】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論