mysql全文索引的原理

tulayang 發(fā)布于2019-07-01 12:19 / 2368人閱讀

摘要：分詞的方法基本上是二元分詞法最大匹配法和統(tǒng)計方法。索引的數據結構基本上采用倒排索引的結構。全文檢索的索引被稱為倒排索引，之所以成為倒排索引，是因為將每一個單詞作為索引項，根據該索引項查找包含該單詞的文本。

全文檢索是對大數據文本進行索引，在建立的索引中對要查找的單詞進行進行搜索，定位哪些文本數據包括要搜索的單詞。因此，全文檢索的全部工作就是建立索引和在索引中搜索定位，所有的工作都是圍繞這兩個來進行的。

建立全文索引中有兩項非常重要，一個是如何對文本進行分詞，一是建立索引的數據結構。分詞的方法基本上是二元分詞法、最大匹配法和統(tǒng)計方法。索引的數據結構基本上采用倒排索引的結構。

分詞的好壞關系到查詢的準確程度和生成的索引的大小。在中文分詞發(fā)展中，早期經常使用分詞方式是二元分詞法，該方法的基本原理是將包含中文的句子進行二元分割，不考慮單詞含義，只對二元單詞進行索引。因此該方法所分出的單詞數量較多，從而產生的索引數量巨大，查詢中會將無用的數據檢索出來，好處是算法簡單不會漏掉檢索的數據。之后又發(fā)展出最大匹配分詞方法，該方法又分為正向最大分詞和逆向最大分詞。其原理和查字典類似，對常用單詞生成一個詞典，分析句子的過程中最大的匹配字典中的單詞，從而將句子拆分為有意義的單詞鏈。最大匹配法中正向分詞方法對偏正式詞語的分辨容易產生錯誤，比如“首飾和服裝”會將“和服”作為單詞分出。達夢數據庫采用的是改進的逆向最大分詞方法，該分詞方法較正向正確率有所提高。最為復雜的是通過統(tǒng)計方式進行分詞的方法。該方法采用隱式馬爾科夫鏈，也就是后一個單詞出現的概率依靠于前一個單詞出現的概率，最后統(tǒng)計所有單詞出現的概率的最大為分詞的依據。這個方法對新名詞和地名的識別要遠遠高于最大匹配法，準確度隨著取樣文本的數量的增大而提高。

　二元分詞方法和統(tǒng)計方法是不依賴于詞典的，而最大匹配法分詞方法是依賴于詞典的，詞典的內容決定分詞結構的好壞。

全文檢索的索引被稱為倒排索引，之所以成為倒排索引，是因為將每一個單詞作為索引項，根據該索引項查找包含該單詞的文本。因此，索引都是單詞和唯一記錄文本的標示是一對多的關系。將索引單詞排序，根據排序后的單詞定位包含該單詞的文本。

GPU云服務器云服務器 mysql索引原理全文索引 sql server 全文索引 mysql索引性能的問題

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉載請注明本文地址：http://specialneedsforspecialkids.com/yun/30494.html

發(fā)表評論

登陸后可評論

0條評論

tulayang

男|高級講師

我要關注我要私信

TA的文章

自動化測試框架指南

閱讀 1589·2021-09-02 15:41
Python正則表達式保姆式教學，帶你精通大名鼎鼎的正則！

閱讀 997·2021-09-02 15:11
RackNerd：$19.99/年KVM-1.8GB/28GB/3TB/洛杉磯機房

閱讀 1278·2021-07-28 00:15
支付寶小程序編譯less

閱讀 2307·2019-08-30 15:55
偽元素的margin值擠壓主體元素解決

閱讀 1144·2019-08-30 15:54
5分鐘理解BFC原理

閱讀 1692·2019-08-30 15:54
我是如何通過debug成功甩鍋瀏覽器的：解決fixed定位元素，在頁面滾動后touch事件失效問題

閱讀 2975·2019-08-30 14:02
JavaScript 高級程序設計（第三版）筆記

閱讀 2523·2019-08-29 16:57

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

mysql全文索引的原理

相關文章

發(fā)表評論

0條評論

tulayang

男|高級講師

TA的文章

自動化測試框架指南

Python正則表達式保姆式教學，帶你精通大名鼎鼎的正則！

RackNerd：$19.99/年KVM-1.8GB/28GB/3TB/洛杉磯機房

支付寶小程序編譯less

偽元素的margin值擠壓主體元素解決

5分鐘理解BFC原理

我是如何通過debug成功甩鍋瀏覽器的：解決fixed定位元素，在頁面滾動后touch事件失效問題

JavaScript 高級程序設計（第三版）筆記

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

mysql全文索引的原理

相關文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！