摘要:項目中用到了,安裝好記錄下。是的首字母縮寫即簡易中文分詞系統。這是一套基于詞頻詞典的機械式中文分詞引擎,它能將一整段的中文文本基本正確地切分成詞。下載完成后,將放到安裝目錄的下。
導語
關于分詞,現在有很多解決方法,根據自己需要進行選擇。項目中用到了 SCWS ,安裝好記錄下。
SCWSSCWS 是 Simple Chinese Word Segmentation 的首字母縮寫(即:簡易中文分詞系統)。
這是一套基于詞頻詞典的機械式中文分詞引擎,它能將一整段的中文文本基本正確地切分成詞。
如上,SCWS 是一套分詞系統。雖然這套系統可能有些過時,算法不是很精確,但在某些特定場合還是比較實用的
下載擴展首先根據自己的 PHP 版本,下載相應的擴展。
下載完成后,將 php_scws.dll 放到 PHP 安裝目錄的 etc/ 下。
首先新建目錄,用于存放規則集文件和詞典文件。如:D:/scws/ 。
然后在這里下載規則集文件,下載后解壓,將 etc/ 目錄中的 *.ini 文件放到 D:/scws/ 中。
接著在這里下載詞典文件,將 *.xdb 文件放到 D:/scws/ 中。
在 pnp.ini 中添加 extension=php_scws.dll,同時可以寫上配置參數:scws.default.fpath = "D:/scws/" 。
測試到此如果一切順利便安裝成功,下面進行測試
set_charset("utf8"); $obj->add_dict(ini_get("scws.default.fpath") . "/dict.utf8.xdb"); $obj->set_rule(ini_get("scws.default.fpath") . "/rules.utf8.ini"); $obj->set_duality(true); $obj->set_ignore(true); $obj->set_multi(2); $obj->send_text($string); $array = $obj->get_result(); foreach ($array as $key => $value) { $data .= $value["word"] . ","; } echo rtrim($data, ",");// 安能,摧眉折腰,摧眉,眉折,折腰,事,權貴,使我,我,不得,開心,顏
參考資料:SCWS、SCWS分詞擴展在windows下的安裝方法。
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/29958.html
摘要:開始之前強烈推薦先瀏覽一下的官方文檔簡介是一個高性能全功能的全文檢索解決方案。旨在幫助一般開發者針對既有的海量數據,快速而方便地建立自己的全文搜索引擎。一定要重建索引。否則不會報錯,但是搜索結果會不正確。 開始之前強烈推薦先瀏覽一下 xunsearch 的官方文檔 Xunsearch簡介 Xunsearch 是一個高性能、全功能的全文檢索解決方案。Xunsearch 旨在幫助一般開發者...
摘要:在上找了半天也沒找到我需要的輪子,只好自己擼了一個詞庫工具簡單。支持大詞庫,我自己的詞庫跑起來輕輕松松。還支持回調式替換哦快速。使用了高大上的樹進行匹配,查找耗時跟文本長度相關,跟詞庫大小關系不大,速度杠杠的。 這么說吧,假如你有一段文本,還有一個巨大的關鍵詞庫(幾十萬起步),現在需要從文本中找出這些關鍵詞,甚至要基于關鍵詞對應的值做一些替換,怎么弄? 在這個簡單又常見的需求面前,s...
摘要:默認的系統管理員的為,我們添加用戶的時候最好使用以上的,范圍的最好保留給系統用。臨時修改主機名新主機名永久修改主機名文件中修改文件存放的是域名與的對應關系添加一個新主機名到原文地址 安裝 Git 安裝: sudo apt-get install git 安裝 Nginx 安裝: sudo apt-get install nginx 啟動: sudo /etc/init.d/ngi...
閱讀 3066·2023-04-25 18:54
閱讀 2591·2021-11-02 14:40
閱讀 3176·2021-09-23 11:58
閱讀 2424·2019-08-30 13:50
閱讀 1231·2019-08-29 12:46
閱讀 3117·2019-08-28 17:51
閱讀 679·2019-08-26 11:47
閱讀 897·2019-08-23 16:17