摘要:序本文簡單介紹下敏感詞或者臟詞檢測算法。經典算法經典的算法由三部分構成,表,表和表,共包含四種具體的算法,分別是計算三張查找表的算法以及算法本身。表是由模式集合中的所有模式構成的狀態轉移自動機。
序
本文簡單介紹下敏感詞或者臟詞檢測算法。
經典AC算法經典的AC算法由三部分構成,goto表,fail表和output表,共包含四種具體的算法,分別是計算三張查找表的算法以及AC算法本身。
goto表是由模式集合P中的所有模式構成的狀態轉移自動機。(goto表就是一棵trie樹)
failure表作用是在goto表中匹配失敗后狀態跳轉的依據,這點與KMP中next表的作用相似。(這個表是trie樹沒有的,加了這個表,AC自動機就看起來不像一棵樹,而像一個圖)
output表示輸出,又稱:emits,即代表到達某個狀態后某個模式串匹配成功
普通DFA算法AC自動機本質上來說是一種基于trie樹的kmp算法,AC算法需要三個函數來進行字符串匹配,而且這三個函數的求解都和一個確定的DFA(有限狀態自動機)有關。
使用hashmap確定性有窮自動機,用于正則表達式的匹配,最長左子式匹配
public void createKeyWord(String keyWord) { Map nowMap = sensitiveWordMap; for (Character c : keyWord.toCharArray()) { Object obj = nowMap.get(c); if (obj == null) { Map使用自定義數據結構childMap = new HashMap<>(); childMap.put("isEnd", "false"); nowMap.put(c, childMap); nowMap = childMap; } else { nowMap = (Map) obj; } } nowMap.put("isEnd", "true"); }
public class WordNode { private int value; // 節點名稱 private ListdocsubNodes; // 子節點 private boolean isLast;// 默認false public WordNode(int value) { this.value = value; } public WordNode(int value, boolean isLast) { this.value = value; this.isLast = isLast; } //...... }
字符串多模式匹配:AC算法
Java實現DFA算法對敏感詞、廣告詞過濾功能
敏感詞過濾的算法原理之 Aho-Corasick 算法
敏感詞過濾的算法原理之DFA算法
AC自動機和Fail樹
基于雙數組的AC匹配算法學習
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/70247.html
摘要:人工智能技術的初步應用隨著網絡強國戰略思想加強網絡內容建設等指導思想的推出和強化,內容安全已經成為互聯網企業生存和發展的生命線。 歡迎訪問網易云社區,了解更多網易技術產品運營經驗。 10月16日,2018年 AIIA人工智能開發者大會在蘇州舉辦。會議邀請了國內外人工智能產業知名人物、國家政府主管部門、行業內頂尖企業、知名學者代表、開源社區優秀貢獻團隊及個人,共同交流了技術現狀趨勢、生態...
摘要:基于深度學習的語義匹配語義匹配技術,在信息檢索搜索引擎中有著重要的地位,在結果召回精準排序等環節發揮著重要作用。在美團點評業務中主要起著兩方面作用。 寫在前面美團點評這兩年在深度學習方面進行了一些探索,其中在自然語言處理領域,我們將深度學習技術應用于文本分析、語義匹配、搜索引擎的排序模型等;在計算機視覺領域,我們將其應用于文字識別、目標檢測、圖像分類、圖像質量排序等。下面我們就以語義匹配、圖...
摘要:在樹中,每個節點表示一個狀態,每條邊表示一個字符,從根節點到葉子節點經過的邊即表示一個詞條。查找一個詞條最多耗費的時間只受詞條長度影響,因此的查找性能是很高的,跟哈希算法的性能相當。 Last-Modified: 2019年5月10日15:25:35 參考文章 c++ 使用map實現Trie樹 關鍵詞過濾擴展,用于檢查一段文本中是否出現敏感詞,基于Double-Array Trie...
摘要:異步事件處理本項目涉及到多種異步事件的處理。即是的粉絲,是的關注對象。模式定義優缺點推事件觸發后廣播給所有粉絲。具體來說,推模式就是事件觸發后產生,觸發事件的用戶下所有粉絲的實現中都存入該的。 項目源代碼已托管在 Github,歡迎 Star、Fork。 Q & A 問答社區 QA 是一個基于 B/S 架構而設計開發的社區網站。 showImg(https://segmentfault...
閱讀 633·2021-11-24 09:39
閱讀 3478·2019-08-30 15:53
閱讀 2509·2019-08-30 15:44
閱讀 3237·2019-08-30 12:54
閱讀 2206·2019-08-29 12:23
閱讀 3304·2019-08-26 14:05
閱讀 2101·2019-08-26 13:36
閱讀 3429·2019-08-26 13:33