Solr集成IKAnalyzer中文分詞器

red_bricks 發布于2019-08-15 15:56 / 3324人閱讀

摘要：安裝包包含中文分詞器使用手冊即本文檔主包分詞器擴展配置文件停止詞典版權申明它的安裝部署十分簡單，將部署于項目的目錄中與文件放置在根目錄對于項目，通常是目錄，同等配置文件相同下即可。配置擴展詞典默認是用的分詞器內置的詞典進行分詞的。

前言

官網：
https://code.google.com/archi...

IK Analyzer 2012 FF版本 （即For 4.0），在API和功能上保持不變，只是讓其支持了Lucene4.0和Solr4.0，讓這部分的用戶能用起來。  
如果你還是Lucene3.2-3.6的用戶，那么你只需要下載IK Analyzer 2012 U6版本。因為FF版本的API與3.x是不兼容的。

【IK Analyzer 安裝包包含】：

《IKAnalyzer 中文分詞器 V2012 使用手冊》（即本文檔）

IKAnalyzer2012.jar（主 jar 包）

IKAnalyzer.cfg.xml（分詞器擴展配置文件）

stopword.dic（停止詞典）

LICENSE.TXT ; NOTICE.TXT （apache 版權申明）

它的安裝部署十分簡單，將 IKAnalyzer2012.jar 部署于項目的lib目錄中；IKAnalyzer.cfg.xml 與 stopword.dic 文件放置在 class 根目錄（對于 web 項目，通常是WEB-INF/classes 目錄，同 hibernate、log4j 等配置文件相同）下即可。

1. 下載安裝

最新版本：IK Analyzer 2012

# 一定要下載FF版本，因為使用的是solr4.0以上版本
$ wget https://storage.googleapis.com/google-code-archive-downloads/v2/code.google.com/ik-analyzer/IK%20Analyzer%202012FF_hf1.zip

#解壓到IK2012目錄中，并且不覆蓋相同文件
$ unzip -n IKAnalyzer2012_u6.zip -d IK2012

#拷貝jar包到tomcat下solr的工程目錄中
$ cp IK2012/IKAnalyzer2012FF_u1.jar /opt/tomcat-8.5.31/webapps/solr/WEB-INF/lib/

#創建classes文件夾
$ mkdir /opt/tomcat-8.5.31/webapps/solr/WEB-INF/classes

# 拷貝IKAnalyzer.cfg.xml和stopword.dic到classes文件夾下
$ cp IKAnalyzer.cfg.xml /opt/tomcat-8.5.31/webapps/solr/WEB-INF/classes/
$ cp stopword.dic /opt/tomcat-8.5.31/webapps/solr/WEB-INF/classes/

2. 修改配置

修改solr core中schema文件，默認位置：

$ vim /opt/solr-4.10.3/example/solr/collection1/conf/schema.xml

添加如下配置：

同時，把需要分詞的字段，設置為text_ik

3. 重啟服務

注意：如果之前已經創建了索引，需要將之前的索引刪掉，重新創建分詞后的索引。

$ /opt/tomcat-8.5.31/bin/shutdown.sh
$ /opt/tomcat-8.5.31/bin/startup.sh

4. 配置擴展詞典

1.默認是用的IKAnalyzer分詞器內置的詞典進行分詞的。我們也可以自己配置IKAnalyzer分詞器的擴展詞典

# 修改IKAnalyzer.cfg.xml文件
$ vim /opt/tomcat-8.5.31/webapps/solr/WEB-INF/classes/IKAnalyzer.cfg.xml

配置如下


  
  
　　IK Analyzer 擴展配置
　　
　　ext.dic; 
　　
　　stopword.dic;

2.在classes下創建 ext.dic 來配置字典(每一行表示一個整體索引)

$ vim /opt/tomcat-8.5.31/webapps/solr/WEB-INF/classes/ext.dic

配置如下：

別看我亂我就是索引
哈哈哈
我是第三行

stopword.dic 和 ext.dic 的編碼方式為UTF-8 無BOM的編碼方式。

3.重啟tomcat后測試

GPU云服務器云服務器中文分詞中科院分詞器 bosonnlp-中文分詞-自然語言處理 IKAnalyzer

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://specialneedsforspecialkids.com/yun/69334.html

推薦十款java開源中文分詞組件

摘要：最初，它是以開源項目為應用主體的，結合詞典分詞和文法分析算法的中文分詞組件。填補了國內中文分詞方面開源組件的空白，致力于此并希翼成為互聯網網站首選的中文分詞開源組件。中文分詞追求分詞的高效率和用戶良好體驗。 1：Elasticsearch的開源中文分詞器 IK Analysis(Star:2471) IK中文分詞器在Elasticsearch上的使用。原生IK中文分詞是從文件系統中讀取...

masturbator 2019-08-15 10:37 評論0 收藏0
sorl實現商品快速搜索

摘要：概述是的一個頂級開源項目，采用開發，它是基于的全文搜索服務器。提供了比更為豐富的查詢語言，同時實現了可配置可擴展，并對索引搜索性能進行了優化。搜索只需要發送請求，然后對返回等格式的查詢結果進行解析，組織頁面布局。 Solr概述 Solr 是Apache的一個頂級開源項目，采用Java開發，它是基于Lucene的全文搜索服務器。Solr提供了比Lucene更為豐富的查詢語言，同時實現了可...

genefy 2019-06-28 17:06 評論0 收藏0
Solr環境搭建（linux）

摘要：前言官網在版本之前無法作為獨立的服務器進行使用需要將其打包為包部署在任何容器內才能使用。從開始可以單獨作為一個獨立的應用服務器分發使用，內部通過實現。主要將的包部署到的下，再根據的依賴導入相關的包。 1. 前言官網：http://lucene.apache.org/solr 在5.0版本之前,solr無法作為獨立的服務器進行使用,需要將其打包為war包部署在任何Servlet容器內才...

ShevaKuilin 2019-08-15 15:53 評論0 收藏0

發表評論

登陸后可評論

0條評論

red_bricks

男|高級講師

我要關注我要私信

TA的文章

keras和tensorflow對應版本

閱讀 3478·2023-04-26 02:00
如何通過堡壘機訪問服務器？堡壘機無法訪問服務器怎么辦？

閱讀 3078·2021-11-22 13:54
SugarHosts：糖果主機12周年活動/全場虛擬主機低至5折/可選香港、中美極速專線等/三年付每

閱讀 1699·2021-08-03 14:03
點擊一列顯示其index的三種方法

閱讀 709·2019-08-30 15:52
如何在沒有實際項目經驗的情況下找到工作

閱讀 3085·2019-08-29 12:30
那些很熟卻又不是很熟的知識

閱讀 2420·2019-08-26 13:35
HTML5使用canvas實現截圖，上傳七?？臻g，自定義KEY參數

閱讀 3364·2019-08-26 13:25
jQuery 全選和反選demo

閱讀 3001·2019-08-26 11:39

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優惠，快來選購！

Solr集成IKAnalyzer中文分詞器

相關文章

推薦十款java開源中文分詞組件

sorl實現商品快速搜索

Solr環境搭建（linux）

發表評論

0條評論

red_bricks

男|高級講師

TA的文章

keras和tensorflow對應版本

如何通過堡壘機訪問服務器？堡壘機無法訪問服務器怎么辦？

SugarHosts：糖果主機12周年活動/全場虛擬主機低至5折/可選香港、中美極速專線等/三年付每

點擊一列顯示其index的三種方法

如何在沒有實際項目經驗的情況下找到工作

那些很熟卻又不是很熟的知識

HTML5使用canvas實現截圖，上傳七?？臻g，自定義KEY參數

jQuery 全選和反選demo

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優惠，快來選購！

Solr集成IKAnalyzer中文分詞器

相關文章

發表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優惠，快來選購！