国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

VicWord 一個純php的分詞

yangrd / 826人閱讀

摘要:安裝分詞說明含有種切分方法長度優先切分。效果最好可自定義詞典,自己添加詞語到詞庫,詞庫支持文本格式和二級制格式二進制格式詞典小,加載快含有個詞,歡迎大家補充詞語到,格式詞語詞性獲取方法百度搜索這個詞語結果數量,如果你有更好的方法歡迎補充。

安裝
composer require lizhichao/word

github: https://github.com/lizhichao/...

分詞說明

含有3種切分方法

getWord 長度優先切分 。最快

getShortWord 細粒度切分。比最快慢一點點

getAutoWord 自動切分 。效果最好

可自定義詞典,自己添加詞語到詞庫,詞庫支持文本格式json和二級制格式igb

二進制格式詞典小,加載快

dict.igb含有175662個詞,歡迎大家補充詞語到 dict.txt ,格式(詞語 t idf t 詞性)

idf 獲取方法 百度搜索這個詞語 Math.log(100000001/結果數量),如果你有更好的方法歡迎補充。

詞性 [標點符號,名詞,動詞,形容詞,區別詞,代詞,數詞,量詞,副詞,介詞,連詞,助詞,語氣詞,擬聲詞,嘆詞] 取index ;標點符號取0

三種分詞結果對比

$fc = new VicWord("igb");
$arr = $fc->getWord("北京大學生喝進口紅酒,在北京大學生活區喝進口紅酒");
//北京大學|生喝|進口|紅酒|,|在|北京大學|生活區|喝|進口|紅酒
//$arr 是一個數組 每個單元的結構[詞語,詞語位置,詞性,這個詞語是否包含在詞典中] 這里只值列出了詞語

$arr =  $fc->getShortWord("北京大學生喝進口紅酒,在北京大學生活區喝進口紅酒");
//北京|大學|生喝|進口|紅酒|,|在|北京|大學|生活|區喝|進口|紅酒

$arr = $fc->getAutoWord("北京大學生喝進口紅酒,在北京大學生活區喝進口紅酒");
//北京|大學生|喝|進口|紅酒|,|在|北京大學|生活區|喝|進口|紅酒

//對比
//qq的分詞 http://nlp.qq.com/semantic.cgi#page2 
//百度的分詞 http://ai.baidu.com/tech/nlp/lexical
分詞速度

機器阿里云 Intel(R) Xeon(R) Platinum 8163 CPU @ 2.50GHz
getWord 每秒140w字
getShortWord 每秒138w字
getAutoWord 每秒40w字
測試文本在百度百科拷貝的一段5000字的文本

制作詞庫

詞庫支持utf-8的任意字符

詞典大小不影響 分詞速度

只有一個方法 VicDict->add(詞語,詞性 = null)

//定義詞典文件路徑
define("_VIC_WORD_DICT_PATH_",__DIR__."/Data/dict.igb");

require __DIR__."/Lib/VicDict.php";

//目前可支持 igb 和 json 兩種詞典庫格式;igb需要安裝igbinary擴展,igb文件小,加載快
$dict = new VicDict("igb");

//添加詞語詞庫 add(詞語,詞性) 不分語言,可以是utf-8編碼的任何字符
$dict->add("中國","n");

//保存詞庫
$dict->save();
demo

demo

該作者的其他軟件

一個極簡的高性能框架,可在php-fpm或者swoole異步協程環境運行

文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。

轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/31306.html

相關文章

  • 字符串與JavaScript之間魔術—前端模板原理及簡單實現

    摘要:大多數模板實現原理基本一致模板字符串首先通過各種手段剝離出普通字符串和模板語法字符串生成抽象語法樹然后針對模板語法片段進行編譯,期間模板變量均去引擎輸入的變量中查找模板語法片段生成出普通片段,與原始普通字符串進行拼接輸出。 前端模板的發展 模板可以說是前端開發最常接觸的工具之一。將頁面固定不變的內容抽出成模板,服務端返回的動態數據裝填到模板中預留的坑位,最后組裝成完整的頁面html字符...

    Steve_Wang_ 評論0 收藏0
  • PHP使用elasticsearch搜索安裝及分詞方法

    摘要:一背景為什么會用到這個搜索是因為我在看烏云的漏洞案例庫時候,搜索即為不方便。在搜索當中分詞插件是中文分詞最好用的一個,安裝也極為方便。那我們選擇用作為分詞器后,它是可以把中華人民共和國作為一個詞,把中華作為一個詞。 一、背景 為什么會用到這個ES搜索?是因為我在看烏云的漏洞案例庫時候,搜索即為不方便。 比如說說我要搜索一個 SQL注入 那mysql匹配的時候是like模糊匹配,搜索必須...

    zzzmh 評論0 收藏0
  • 使用cjieba(結巴分詞庫)實現php擴展中文分詞-支持php5, php7

    摘要:作者地址編譯安裝配置指向庫目錄使用小明碩士畢業于中國科學院計算所,后在日本京都大學深造小明碩士畢業于中國科學院計算所,后在日本京都大學深造效果小明碩士畢業于中國科學學院科學院中國科學院計算計算所,后在日本京都大學日本京都大學深造計算所 作者git地址:https://github.com/jonnywang/... 編譯安裝 git clone https://github.com/j...

    fevin 評論0 收藏0
  • 使用cjieba(結巴分詞庫)實現php擴展中文分詞

    摘要:編譯安裝配置指向庫目錄使用小明碩士畢業于中國科學院計算所,后在日本京都大學深造小明碩士畢業于中國科學院計算所,后在日本京都大學深造效果小明碩士畢業于中國科學學院科學院中國科學院計算計算所,后在日本京都大學日本京都大學深造計算所小明京都 編譯安裝 git clone https://github.com/jonnywang/jz.git cd jz/cjieba make cd .. p...

    ethernet 評論0 收藏0

發表評論

0條評論

最新活動
閱讀需要支付1元查看
<