摘要:在我認識范圍內完成的是在日文文本分析方面的最強王者。簡介是一個開源的日文詞法分析的庫。功能你可以用它來對日文文本進行如下的處理,包括且不僅包括分詞給出讀音包括漢字詞性詞干提取你也可以在的嘗試。關聯可以將日文漢字轉換成平假名,片假名或的
在我認識范圍內atilika完成的Kuromoji是在日文文本分析方面的最強王者。
簡介kuromoji是一個開源的日文詞法分析的JAVA庫。
但也有Ruby,javascript,go等語言的版本,你可以在github或則語言對應的庫管理工具中找到。
官網有更多的信息。
功能你可以用它來對日文文本進行如下的處理,包括且不僅包括:
分詞
給出讀音( 包括漢字)
詞性
詞干提取
…...
你也可以在kuromoji.js的playground嘗試kuromoji。
使用作為一名前端小卒,我就以js版的kuromoji來做示范吧,JAVA同胞們可以看這里JAVA簡要教程。
安裝kuromoji的npm頁面在這里。
在 Node.js 中使用:
先通過npm來安裝到項目中
npm install kuromoji
再在JS文件中引用其。
var kuromoji = require("kuromoji");
接來下你可以如下來實例化一個解析器。
kuromoji.builder({ dicPath: "指定/對應的路徑/到你使用/的/詞典上去" }).build(function (err, tokenizer) { // tokenizer is ready var path = tokenizer.tokenize("すもももももももものうち"); console.log(path); }); /* !!注意 ??! * * Kuromoji可以指定不同的詞典,因此在實例化解析器的過程中需要指定使用 * 詞典的路徑,`kuromoji.builder`中的參數的`dicPath`的值應指向使用 * 得詞典。 * 若在node.js中使用,一般來說直接使用該庫中的字典即可,即設置 * {dicPath:"./node_modules/kuromoji/dict/"} */
在 瀏覽器 中使用:
如果使用npm安裝,那么你需要使用到包中的build/kuromoji.js 和 dict/*.dat.gz下的文件。
你可以直接使用前端模塊管理Bower來安裝瀏覽器專用的kuromoji。
bower install kuromoji
你也可以直接使用github、CDN等其他網絡鏈接的方式來引入該文件。
再在你的JS中這樣使用
設置路徑到kuromoji.builder({ dicPath: "指定/對應的路徑/到你使用/的/詞典上去" }).build(function (err, tokenizer) { // tokenizer is ready var path = tokenizer.tokenize("すもももももももものうち"); console.log(path); }); /* !!注意 ??! * * Kuromoji可以指定不同的詞典,因此在實例化解析器的過程中需要指定使用 * 詞典的路徑,`kuromoji.builder`中的參數的`dicPath`的值應指向使用 * 得詞典。 * 若在瀏覽器中使用,則設置路徑到對應的網絡位置就好。 * 比如字典放在了 http://apps.bdimg.com/libs/kuromoji.js/0.3.2/dict/ * 就設置{ dicPath:"http://apps.bdimg.com/libs/kuromoji.js/0.3.2/dict/" } */API
tokenize()函數將會返回一個如下格式的JSON數組:
[ { word_id: 509800, // 詞典中的詞所在ID word_type: "KNOWN", // 單詞類型(存在詞典的為KNOWN,不存在的為UNKNOWN) word_position: 1, // 單詞開始的位置 surface_form: "黒文字", // 單詞的表面(不知什么意思) pos: "名詞", // 詞性 pos_detail_1: "一般", // 詞性細分類別1 pos_detail_2: "*", // 詞性細分類別2 pos_detail_3: "*", // 詞性細分類別3 conjugated_type: "*", // 活用型 conjugated_form: "*", // 活用形 basic_form: "黒文字", // 基本型 reading: "クロモジ", // 閱讀 pronunciation: "クロモジ" // 發育 } ]
以處理 “世界の神” 為例子
tokenizer.tokenize("世界の神");
將會返回
[ { word_id: 2633350, word_type: "KNOWN", word_position: 6, surface_form: "世界", pos: "名詞", pos_detail_1: "一般", pos_detail_2: "*", pos_detail_3: "*", conjugated_type: "*", conjugated_form: "*", basic_form: "世界", reading: "セカイ", pronunciation: "セカイ" }, { word_id: 93100, word_type: "KNOWN", word_position: 8, surface_form: "の", pos: "助詞", pos_detail_1: "連體化", pos_detail_2: "*", pos_detail_3: "*", conjugated_type: "*", conjugated_form: "*", basic_form: "の", reading: "ノ", pronunciation: "ノ" }, { word_id: 2771160, word_type: "KNOWN", word_position: 9, surface_form: "神", pos: "名詞", pos_detail_1: "一般", pos_detail_2: "*", pos_detail_3: "*", conjugated_type: "*", conjugated_form: "*", basic_form: "神", reading: "カミ", pronunciation: "カミ" }, ]備注
你嘗試了一下,然后會發現kuromoji雖然強大,但是有一個問題——慢。
不過別擔心,kuromojin(node.js)可以幫你解決這個問題。
kuromojin
kuromojin是一個對kuromoji進行了高度包裝的語法糖,并且還實現了緩沖層來保證速度。
使用kuromojin,你可以:
不用設置詞典的地址。
實例化解析器后,除了第一次之外,之后的速度會非常塊。
基于Promise實現了APi。
使用方面它的文檔已經很詳細,RDD我就不多作介紹了。
關聯可以將 日文漢字 轉換成 平假名,片假名或Romaji 的 KAKASI
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/67209.html
摘要:在我認識范圍內完成的是在日文文本分析方面的最強王者。簡介是一個開源的日文詞法分析的庫。功能你可以用它來對日文文本進行如下的處理,包括且不僅包括分詞給出讀音包括漢字詞性詞干提取你也可以在的嘗試。關聯可以將日文漢字轉換成平假名,片假名或的 在我認識范圍內atilika完成的Kuromoji是在日文文本分析方面的最強王者。 簡介 kuromoji是一個開源的日文詞法分析的JAVA庫。 但也...
摘要:本文,我們將比較業界兩個最流行的開源搜索引擎,和。關于基于業界大名鼎鼎的開源搜索引擎,更多的是一個軟件包,還不能稱之為搜索引擎,而則完成對的封裝,是一個真正意義上的搜索引擎框架。 當前是云計算和數據快速增長的時代,今天的應用程序正以PB級和ZB級的速度生產數據,但人們依然在不停的追求更高更快的性能需求。隨著數據的堆積,如何快速有效的搜索這些數據,成為對后端服務的挑戰。本文,我們將比較業...
摘要:場景場景留言功能限制,秒內只能評論次,超出次數不讓能再評論,并提示過于頻繁場景點贊功能限制,秒內只能點贊次,超出次數后不能再點贊,并禁止操作個小時,提示過于頻繁,被禁止操作小時場景上傳記錄功能,限制一天只能上傳次,超出次數不讓能再上傳,并提 場景 場景1 留言功能限制,30秒 內只能評論 10次,超出次數不讓能再評論,并提示:過于頻繁 場景2 點贊功能限制,10秒 內只能點贊 10次,...
閱讀 2847·2021-09-27 13:35
閱讀 624·2021-09-23 11:22
閱讀 2892·2019-08-30 15:54
閱讀 1612·2019-08-29 16:27
閱讀 2468·2019-08-29 15:05
閱讀 2350·2019-08-23 18:11
閱讀 3523·2019-08-23 16:32
閱讀 2941·2019-08-23 14:56