摘要:分詞的方法基本上是二元分詞法最大匹配法和統(tǒng)計方法。索引的數據結構基本上采用倒排索引的結構。全文檢索的索引被稱為倒排索引,之所以成為倒排索引,是因為將每一個單詞作為索引項,根據該索引項查找包含該單詞的文本。
全文檢索是對大數據文本進行索引,在建立的索引中對要查找的單詞進行進行搜索,定位哪些文本數據包括要搜索的單詞。因此,全文檢索的全部工作就是建立索引和在索引中搜索定位,所有的工作都是圍繞這兩個來進行的。
建立全文索引中有兩項非常重要,一個是如何對文本進行分詞,一是建立索引的數據結構。分詞的方法基本上是二元分詞法、最大匹配法和統(tǒng)計方法。索引的數據結構基本上采用倒排索引的結構。
分詞的好壞關系到查詢的準確程度和生成的索引的大小。在中文分詞發(fā)展中,早期經常使用分詞方式是二元分詞法,該方法的基本原理是將包含中文的句子進行二元分割,不考慮單詞含義,只對二元單詞進行索引。因此該方法所分出的單詞數量較多,從而產生的索引數量巨大,查詢中會將無用的數據檢索出來,好處是算法簡單不會漏掉檢索的數據。之后又發(fā)展出最大匹配分詞方法,該方法又分為正向最大分詞和逆向最大分詞。其原理和查字典類似,對常用單詞生成一個詞典,分析句子的過程中最大的匹配字典中的單詞,從而將句子拆分為有意義的單詞鏈。最大匹配法中正向分詞方法對偏正式詞語的分辨容易產生錯誤,比如“首飾和服裝”會將“和服”作為單詞分出。達夢數據庫采用的是改進的逆向最大分詞方法,該分詞方法較正向正確率有所提高。最為復雜的是通過統(tǒng)計方式進行分詞的方法。該方法采用隱式馬爾科夫鏈,也就是后一個單詞出現的概率依靠于前一個單詞出現的概率,最后統(tǒng)計所有單詞出現的概率的最大為分詞的依據。這個方法對新名詞和地名的識別要遠遠高于最大匹配法,準確度隨著取樣文本的數量的增大而提高。
二元分詞方法和統(tǒng)計方法是不依賴于詞典的,而最大匹配法分詞方法是依賴于詞典的,詞典的內容決定分詞結構的好壞。
全文檢索的索引被稱為倒排索引,之所以成為倒排索引,是因為將每一個單詞作為索引項,根據該索引項查找包含該單詞的文本。因此,索引都是單詞和唯一記錄文本的標示是一對多的關系。將索引單詞排序,根據排序后的單詞定位包含該單詞的文本。
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/30494.html
閱讀 1589·2021-09-02 15:41
閱讀 997·2021-09-02 15:11
閱讀 1278·2021-07-28 00:15
閱讀 2307·2019-08-30 15:55
閱讀 1144·2019-08-30 15:54
閱讀 1692·2019-08-30 15:54
閱讀 2975·2019-08-30 14:02
閱讀 2523·2019-08-29 16:57