使用HanLP增強Elasticsearch分詞功能

hanlp-ext 插件源碼地址：http://git.oschina.net/hualongdata/hanlp-ext?或?https://github.com/hualongdata/hanlp-ext

Elasticsearch?默認對中文分詞是按“字”進行分詞的，這是肯定不能達到我們進行分詞搜索的要求的。官方有一個?SmartCN?中文分詞插件，另外還有一個 IK 分詞插件使用也比較廣。但這里，我們采用?HanLP?這款?自然語言處理工具?來進行中文分詞。

Elasticsearch

Elasticsearch 的默認分詞效果是慘不忍睹的。

????GET?/_analyze?pretty
????{??????"text"?:?["重慶華龍網海數科技有限公司"]
????}

輸出：

{??"tokens":?[
????{??????"token":?"重",??????"start_offset":?0,??????"end_offset":?1,??????"type":?"",??????"position":?0
????},
????{??????"token":?"慶",??????"start_offset":?1,??????"end_offset":?2,??????"type":?"",??????"position":?1
????},
????{??????"token":?"華",??????"start_offset":?2,??????"end_offset":?3,??????"type":?"",??????"position":?2
????},
????{??????"token":?"龍",??????"start_offset":?3,??????"end_offset":?4,??????"type":?"",??????"position":?3
????},
????{??????"token":?"網",??????"start_offset":?4,??????"end_offset":?5,??????"type":?"",??????"position":?4
????},
????{??????"token":?"海",??????"start_offset":?5,??????"end_offset":?6,??????"type":?"",??????"position":?5
????},
????{??????"token":?"數",??????"start_offset":?6,??????"end_offset":?7,??????"type":?"",??????"position":?6
????},
????{??????"token":?"科",??????"start_offset":?7,??????"end_offset":?8,??????"type":?"",??????"position":?7
????},
????{??????"token":?"技",??????"start_offset":?8,??????"end_offset":?9,??????"type":?"",??????"position":?8
????},
????{??????"token":?"有",??????"start_offset":?9,??????"end_offset":?10,??????"type":?"",??????"position":?9
????},
????{??????"token":?"限",??????"start_offset":?10,??????"end_offset":?11,??????"type":?"",??????"position":?10
????},
????{??????"token":?"公",??????"start_offset":?11,??????"end_offset":?12,??????"type":?"",??????"position":?11
????},
????{??????"token":?"司",??????"start_offset":?12,??????"end_offset":?13,??????"type":?"",??????"position":?12
????}
??]
}

可以看到，默認是按字進行分詞的。

elasticsearch-hanlp

HanLP

HanLP?是一款使用 Java 實現的優秀的，具有如下功能：

中文分詞
詞性標注
命名實體識別
關鍵詞提取
自動摘要
短語提取
拼音轉換
簡繁轉換
文本推薦
依存句法分析
語料庫工具

安裝?elasticsearch-hanlp（安裝見：https://github.com/hualongdata/hanlp-ext/tree/master/es-plugin）插件以后，我們再來看看分詞效果。

????GET?/_analyze?pretty
????{??????"analyzer"?:?"hanlp",??????"text"?:?["重慶華龍網海數科技有限公司"]
????}

輸出：

{??"tokens":?[
????{??????"token":?"重慶",??????"start_offset":?0,??????"end_offset":?2,??????"type":?"ns",??????"position":?0
????},
????{??????"token":?"華龍網",??????"start_offset":?2,??????"end_offset":?5,??????"type":?"nr",??????"position":?1
????},
????{??????"token":?"海數",??????"start_offset":?5,??????"end_offset":?7,??????"type":?"nr",??????"position":?2
????},
????{??????"token":?"科技",??????"start_offset":?7,??????"end_offset":?9,??????"type":?"n",??????"position":?3
????},
????{??????"token":?"有限公司",??????"start_offset":?9,??????"end_offset":?13,??????"type":?"nis",??????"position":?4
????}
??]
}

HanLP 的功能不止簡單的中文分詞，有很多功能都可以集成到 Elasticsearch 中。

文章來源于羊八井的博客

閱讀全文

英特爾為汽車行業打造芯片級增強版硬件虛擬化功能

借助英特爾市場領先的芯片級增強版硬件虛擬化功能，英特爾汽車事業部旨在為行業提供具有卓越性能和超高效率的軟件定義汽車（SDV）的架構方案，幫助用戶獲得99%的高效率和零延遲。

2024-03-18 10:30:10

513

IBM推出AI增強的數據彈性功能，打造更安全存儲解決方案

在新一代 IBM Storage FlashSystem 產品中發布新的 AI 增強版 IBM FlashCore 模塊技術，以及新版 IBM Storage Defender 軟件，幫助組織提高其檢測和響應勒索軟件及其他網絡攻擊的能力。

2024-03-05 18:45:40

825

谷歌發布Pixel手機3月功能更新，優化應用屏幕共享和快速配對功能

除對先前階段不足之處進行修復和增強系統穩定性外，谷歌還將重點放在了擴大“圈選即搜”（Circle to Search）功能的覆蓋范圍、優化應用屏幕共享和Fast Pair等功能上。

2024-03-05 10:10:51

CYW43438需要新增增強測試項，請問如何測試SRRC？

SRCNEW，增強了一項也就是自適應，實現了跑流，測試設備干擾規避開。需要新增增強測試項，請問如何測試SRRC？客戶：IDPRT 操作系統：RTOS PN: CYW43438 請問是使用以下方法嗎？

2024-03-01 08:46:31

PI-MAX4:1024i全集成科研級增強型ICCD相機

PI-MAX4：1024i 簡介 PI-MAX4：1024i 全集成的科研級增強型CCD(ICCD)，耦合了Gen II和Gen III的像增強器。增強器具備了從紫外到近紅外的高靈敏度。低于

2024-02-29 06:27:58

116

用CYUSB3014的時候，怎么樣增強芯片的抗干擾能力？

如題，請問各位大神，用CYUSB3014的時候，怎么樣增強芯片的抗干擾能力，目前在測試EFT（+/-2kv 5Khz和100Khz）和ESD的時候，都會導致CYUSB3014和PC的連接斷開，感覺和按下FX3_RESET按鍵的效果一樣，針對RESET電路，怎么樣增強抗干擾能力呢？

2024-02-28 07:35:29

Rust編寫的首個Postgres基礎Elasticsearch開源替代品問世

，Firebase 開源替代 Supabase，AirTable 開源替代 NocoDB，等等等等，現在又多了 ElasticSearch 開源替代 —— ParadeDB。

2024-02-22 11:34:13

196

手機信號增強器有用嗎手機信號增強器怎么安裝

手機信號增強器是一種用于增強手機信號的設備，它可以幫助用戶改善手機信號不好的情況，提高通話質量和數據傳輸速度。在某些地方，如偏遠山區、高樓、地下室或農村地區，手機信號可能會受到建筑物阻擋、天線距離

2024-01-18 11:05:52

545

如何增強MOS管的帶載能力呢？

如何增強MOS管的帶載能力呢？增強MOS管的帶載能力是通過優化器件的設計和選擇適合的工作條件來實現的。下面將詳細介紹如何增強MOS管的帶載能力。 1. 選擇合適的材料： MOS管的材料選擇

2024-01-12 14:43:47

424

SOLIDWORKS 2024功能增強提高日常設計效率

隨著科技的不斷進步，設計行業對于CAD軟件的需求也在日益增長。SOLIDWORKS作為一款廣受歡迎的CAD軟件，一直以來都在不斷地進行更新和改進，以滿足用戶日益復雜的設計需求。在SOLIDWORKS 2024中，我們可以看到許多新的功能和改進，這些功能和改進旨在提高用戶的日常設計效率。

2024-01-09 16:15:53

260

SOLIDWORKS 2024 Visualize增強功能搶先看

SOLIDWORKS Visualize產品提供一套單機軟件工具，結合業界的影像計算功能，以及適用于設計師、工程師、營銷人員等。您可輸入SOLIDWORKS、Autodesk Alias、Rhino、SketchUp、3ds Max及其他CAD格式，來生成具有吸引力、高度逼真的內容。

2023-12-27 10:02:37

179

SOLIDWORKS 2024產品功能升級

SOLIDWORKS 2024 新功能來了，快來體驗新的用戶驅動增強功能，圍觀一下如何助您更快速、更智能、更協同地工作！

2023-12-26 14:42:09

187

號稱取代 Elasticsearch，太猛了！

Manticore Search 是一個使用 C++ 開發的高性能搜索引擎，創建于 2017 年，其前身是 Sphinx Search 。Manticore Search 充分利用了 Sphinx，顯著改進了它的功能，修復了數百個錯誤，幾乎完全重寫了代碼并保持開源。

2023-12-18 16:57:38

472

二維材料增強光纖

材料可用于涂覆其他材料，以增強其功能并更好地利用其光學特性。來自中國科學院和北京大學的劉忠范研究小組在最近發表的《自然納米技術》雜志上描述了他們如何增強二維材料非線性特性在光纖中的應用。他們的方法可應用于廣泛的材料和光纖設計，為二

2023-12-01 06:34:01

135

sigmastudio有沒有語音增強的算法或組合實現功能？

在ADAU1401芯片下，有沒有具體實現語音信號增強的算法實現

2023-11-29 07:55:53

WK2124是SPITM接口的4通道UART器件，WK2124實現SPI橋接/擴展4個增強功能串口（UART）的功能

?1.產品概述WK2124是SPITM接口的4通道UART器件，WK2124實現SPI橋接/擴展4個增強功能串口（UART）的功能。擴展的子通道的UART具備如下功能特點：每個子通道UART的波特率

2023-11-24 00:17:37

如何優化無線信號以增強穿墻能力？

，可以嘗試增加天線數量來增強信號傳輸能力。這有助于提高信號強度和穩定性。調整天線角度：如果無線路由器有可調節天線的功能，可以嘗試調整天線的角度，以便更好地覆蓋房屋內的各個區域。升級無線路由器：如果可能的話，考慮

2023-11-23 14:10:24

601

GSM覆蓋增強技術和超遠覆蓋原理的研究分析

電子發燒友網站提供《GSM覆蓋增強技術和超遠覆蓋原理的研究分析.pdf》資料免費下載

2023-11-17 16:36:41

圖像增強三大類別介紹

圖像增強是圖像模式識別中非常重要的圖像預處理過程。圖像增強的目的是通過對圖像中的信息進行處理，使得有利于模式識別的信息得到增強，不利于模式識別的信息被抑制，擴大圖像中不同物體特征之間的差別，為圖像的信息提取及其識別奠定良好的基礎。

2023-11-14 14:34:54

448

源譯識 | 譯文分享：Elasticsearch訴Amazon商標侵權案

【編者按】 ElasticSearch是歸屬Elastic公司的一個開源項目，提供分布式、高擴展、高實時的搜索與數據分析引擎。Amazon公司于2015年基于ElasticSearch推出了自己

2023-11-06 19:10:02

409

新潔能NCE30P12S NCE P通道增強模式電源MOSFET民信微

新潔能NCE30P12S NCE P通道增強模式電源MOSFET新潔能NCE30P12S，一款卓越的P通道增強模式電源MOSFET，采用前沿的溝槽技術，盡顯卓越性能。民信微其低RDS（ON）特性

2023-11-05 09:54:55

FoolNLTK：簡單好用的中文NLP工具包

FoolNLTK — 作者號稱“可能不是最快的開源中文分詞，但很可能是最準的開源中文分詞”。這個開源工具包基于 BiLSTM模型訓練而成，功能包含分詞，詞性標注，實體識別。并支持用戶自定義詞

2023-11-01 10:41:16

212

Python 更新 Elasticsearch 的幾種方法

全文檢索、結構化搜索、分析以及這三個功能的組合全局更新在 Elasticsearch 中，通過指定文檔的 _id , 使用 Elasticsearch 自帶的 index api 可以實現插入一條

2023-11-01 10:11:42

304

FoolNLTK：簡單好用的中文NLP工具包

2023-10-30 09:40:50

604

SAP業務從ECC升級到SAP S/4HANA有哪些變化？有哪些功能得到增強？

，與財務的組件組成的SAP新近發布的簡單財務應用。那么sap 由ECC升級到SAP S/4HANA有哪些變化和優勢？增強了哪些功能？? 1、用戶界面及體驗的顛覆式更新? 2、SAP FIORI 全新UI,基于用戶

2023-10-29 21:37:35

378

濾波器的主要功能和作用

濾波器的主要功能和作用是處理信號，根據特定的頻率響應特性對信號進行頻率選擇、增強或抑制。以下是濾波器的主要功能和作用。

2023-10-27 11:16:01

1020

新潔能NCE4435 NCE P通道增強模式電源MOSFET SOP8民信微

新潔能NCE4435 NCE P通道增強模式電源MOSFET SOP8新潔能NCE4435，這款卓越的P通道增強模式電源MOSFET，采用前沿的溝槽技術，使你體驗到極致的RDS（ON）性能，同時保持

2023-10-26 21:11:40

51單片機開發板QZ_KST_51增強板

2023-10-26 16:02:05

基于ARM的低功耗語音增強系統設計

電子發燒友網站提供《基于ARM的低功耗語音增強系統設計.pdf》資料免費下載

2023-10-23 09:49:26

如何在PCB板設計中，增強電磁兼容性？

2023-10-17 14:45:53

676

NCE2301 NCE P通道增強模式電源MOSFET SOT-23民信微

新潔能NCE2301型NCEP通道增強模式電源MOSNCE2301型NCEP通道增強模式電源MOSFET采用先進的溝槽技術，具有優良的RDS（ON）性能，以及低柵極電荷和可低至2.5V操作的柵極電壓

2023-10-11 21:25:15

SpringBoot 連接ElasticSearch的使用方式

在上篇 ElasticSearch 文章中，我們詳細的介紹了 ElasticSearch 的各種 api 使用。實際的項目開發過程中，我們通常基于某些主流框架平臺進行技術開發，比如

2023-10-09 10:35:27

400

Elasticsearch存在的各種漏洞問題

elasticsearch 8 之前使用的一個老系統使用了elasticsearch7.x版本，之后又反應es版本存在各種漏洞無奈只能做版本升級來解決問題，計劃是將版本升級到8.x，在網

2023-09-30 10:40:00

1377

一文詳解RedisJSON和其他框架的對比

RedisJSON 的讀取、寫入和負載搜索延遲在更高的百分位數中遠比 ElasticSearch 和 MongoDB 穩定。當增加寫入比率時，RedisJSON 還能處理越來越高的整體吞吐量，而當寫入比率增加時，ElasticSearch 會降低它可以處理的整體吞吐量。

2023-09-27 11:00:16

250

8位PIC單片機的位拆裂增強型UART

電子發燒友網站提供《8位PIC單片機的位拆裂增強型UART.pdf》資料免費下載

2023-09-26 09:45:50

安世|紐扣電池壽命和功率增強器

Nexperia的模擬和邏輯 IC 業務部門總經理 Dan Jensen 表示：“推出這款電池壽命增強器產品展示了Nexperia拓展電池管理解決方案業務的決心。我們非常高興推出這些創新產品，為我們

2023-09-22 09:09:00

310

超二代微光像增強器性能隨工作時間的變化規律研究

微光像增強器是微光夜視系統的核心器件，而超二代微光像增強器（以下簡稱像增強器）作為眾多像增強器種類之一，因其具有重量輕、體積小、電子倍增數量高等優點，被廣泛應用于海、陸、空等各軍兵種領域。像增強

2023-09-15 09:10:29

318

看聲光可調諧濾波器（AOTF）如何增強共聚焦顯微鏡的多功能性

看聲光可調諧濾波器（AOTF）如何增強共聚焦顯微鏡的多功能性聲光可調諧濾波器（AOTF）可以為共聚焦顯微鏡提供更加清晰的圖像、逐像素波長的靈敏性以及精確的控制。Gooch&Housego

2023-09-14 08:17:59

411

ST25TV通過帶有增強型NDEF的NFC標簽來提高用戶體驗

借助其增強型 NDEF 功能（ANDEF），ST25TV512C 和 ST25TV02KC 標簽IC具備了上下文自動NDEF消息傳遞服務。最終用戶只需簡單地“點擊”標簽，便可動態生成相應的響應

2023-09-13 06:33:45

STM32F30X中計時器的增強功能

高級控制定時器上最多6個通道： ?最多4個通道，帶輸入/輸出級（如TIM2/3/4） ?頻道與現有產品定時器上的頻道保持兼容 ?新功能： ?生成更復雜的波形 ?增強的觸發能力 ?更多頻道模式 ?通道

2023-09-12 06:43:47

CLE Diffusion：可控光照增強擴散模型

本文提出了新型的可控光照增強框架，主要采用了條件擴散模型來控制任意區域的任意亮度增強。通過亮度控制模塊（Brightness Control Module)將亮度信息信息融入Diffusion網絡中，并且設計了和任務適配的條件控制信息和損失函數來增強模型的能力。

2023-09-11 17:20:14

384

功率放大器的功能是什么功能

功率放大器是一種電子設備，用于放大輸入信號的功率，并輸出對應增強后的信號。功率放大器的功能主要包括增強信號的功率、保持信號的形狀和質量、提供足夠的電流和電壓驅動負載，以滿足不同應用需求。

2023-09-06 16:18:55

398

Elasticsearch保姆級入門

我們需要創建一個供 Elasticsearch 和 Kibana 使用的 network。這個 network 將被用于 Elasticsearch 和 Kibana 之間的通信。

2023-09-01 15:24:52

245

工業相機拍攝的圖像比較暗，如何增強圖像亮度

通過工業相機采集圖像后，增強圖像亮度的方法

2023-08-29 11:34:54

865

濾波器有什么功能？

的主要功能是對信號進行去除噪聲、增強所需信號、調整信號的頻率等。下面電源濾波器維愛普小編將詳細介紹濾波器的幾種常見功能： 1.?去除噪聲：在信號傳輸或采集的過程中，常常會受到來自環境或電路等方面的干擾，這些干擾會使得

2023-08-29 10:23:30

1035

業務連續性增強彈性的解決方案

電子發燒友網站提供《業務連續性增強彈性的解決方案.pdf》資料免費下載

2023-08-28 11:14:15

從N76E003到增強MS51系列軟件的移植指南

2-1、表 2-2、表 2-3 列出了 N76E003 系列和 MS51 系列不同封裝的特性差異匯總，不同之處用紅色標注。兼容性列表 N76E003 系列和 MS51 系列的差異和增強功能如下

2023-08-28 06:41:51

紐扣電池壽命和功率增強器

計的新型電池壽命增強器，相比于同類解決方案，可將該類電池壽命延長10倍，與未使用電池增強器的典型紐扣電池相比，使用該增強器還可將電池的峰值輸出電流能力提高至25倍。大幅延長工作壽命意味著低功率物聯網（IoT）和其他便攜式應用中的廢舊電池數量將顯著減少，

2023-08-14 16:03:15

246

增強現實是人機交互技術嗎

增強現實是人機交互技術嗎增強現實是一種涵蓋多種應用程序和技術的科技，可以改變我們的感知和與現實世界交互的方式。它是將虛擬世界的數字信息與真實世界融合在一起的技術。相比于傳統虛擬現實技術，增強現實

2023-08-12 15:27:30

585

增強現實和擴展現實的區別

增強現實和擴展現實的區別隨著技術的不斷進步，現實和虛擬之間的界限越來越模糊。現在，我們經常聽到的是增強現實和擴展現實這兩個概念。它們似乎是一回事，但實際上它們之間有很大的區別，本文將詳細介紹增強

2023-08-12 15:23:40

1241

增強現實和混合現實的區別

增強現實和混合現實的區別現代科技的發展為人們的生活帶來了很多便利與樂趣，增強現實和混合現實就是其中代表性比較強的兩項技術。雖然這兩個技術在功能和應用方面都有很多的共同點，但在實際使用中也存在著明顯

2023-08-12 15:19:53

1461

__197.Elasticsearch ： 13.15 python直接操作 elasticsearch的方法

開發程序代碼Arduino

充八萬發布于 2023-08-08 22:40:49

__183.Elasticsearch ： 13.1 elasticsearch簡介 #硬聲創作季

開發程序代碼Arduino

充八萬發布于 2023-08-08 22:35:47

基于 Elasticsearch 的日志系統架構如何面臨挑戰

實操 Demo 展示日志數據蘊含了豐富的信息價值，可幫助企業更好了解系統及業務運行情況，保障系統安全穩定運行。為更好滿足日志場景的需求，Apache Doris 在 2.0 版本中引入了多項功能

2023-08-08 10:21:46

594

增強現實和虛擬現實的區別

增強現實和虛擬現實的區別增強現實和虛擬現實有以下區別： 1. 概念不同：增強現實是將真實世界的實境與虛擬世界的信息相結合的技術，而虛擬現實是一種通過計算機生成的完全虛假的環境。 2. 應用場

2023-08-02 18:40:57

5363

SmartAudio 350創新的聲音和語音增強技術

電子發燒友網站提供《SmartAudio 350創新的聲音和語音增強技術.pdf》資料免費下載

2023-07-20 10:19:39

37.8.1 elasticsearch簡介

代碼程序開發

充八萬發布于 2023-07-19 18:16:14

SmartAudio 100創新的聲音和語音增強技術

電子發燒友網站提供《SmartAudio 100創新的聲音和語音增強技術.pdf》資料免費下載

2023-07-19 15:49:49

RedisJson橫空出世，比ES快7倍，驚爆了！

此外，RedisJSON 的讀取、寫入和負載搜索延遲在更高的百分位數中遠比 ElasticSearch 和 MongoDB 穩定。當增加寫入比率時，RedisJSON 還能處理越來越高的整體吞吐量，而當寫入比率增加時，ElasticSearch 會降低它可以處理的整體吞吐量。

2023-07-11 15:09:35

491

深度學習在語音增強中的應用

所引起的混響等都會影響語音的感知質量，研究者將真實場景下影響語音質量的因素總結為三個方面：環境噪聲、房間混響和其他說話人干擾，語音增強的目的就是消除上述三個方面的影響。語音增強是指利用音頻信號處理的技術以及算法提高失真語音信號的整體感知質量或者可懂度。

2023-07-11 09:39:27

770

如何使用NVIDIA DALI實現和使用GPU加速自動增強來訓練

為什么自動增強很重要

2023-07-05 16:30:30

1858

淺談增益模塊的功能

增益模塊是一種電子設備或電路，用于增強信號的幅度、功率或能量水平。它的主要功能是提供信號放大，使輸入信號在輸出端具有更高的幅度或功率。

2023-06-30 09:22:11

389

544

759

2316

有什么想法可以增強代碼安全性嗎？

C40驅動是AP和bootloader固件的分區，我們擔心一些極端情況下C40接口可以修改關鍵數據。由于我們項目使用的是FEE，所以代碼中必須預留C40驅動。您有什么想法可以增強代碼安全性嗎？

2023-04-18 07:28:21

AR（增強現實）的技術原理

增強現實（Augmented Reality，簡稱AR），增強現實技術也被稱為擴增現實，AR增強現實技術是促使真實世界信息和虛擬世界信息內容之間綜合在一起的較新的技術內容，其將原本在現實世界的空間

2023-04-13 16:00:36

2885

1406

電阻柜怎么增強電力

電阻柜怎么增強電力電阻柜是一種用于接地電阻的設備，主要作用是保護電力設備和人身安全。因此，電阻柜的設計應符合一定的電力標準，如電壓、電阻等。要增強電力，可以考慮以下幾個方面：選擇合適的電阻材料

2023-03-28 13:58:35

242

811

DMN2075U-7

N溝道增強型MOSFET

2023-03-24 10:04:33

已全部加載完成

搜索歷史

使用HanLP增強Elasticsearch分詞功能

Elasticsearch

elasticsearch-hanlp

評論