国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

敏感詞檢測算法小結

劉厚水 / 3035人閱讀

摘要:序本文簡單介紹下敏感詞或者臟詞檢測算法。經典算法經典的算法由三部分構成,表,表和表,共包含四種具體的算法,分別是計算三張查找表的算法以及算法本身。表是由模式集合中的所有模式構成的狀態轉移自動機。

本文簡單介紹下敏感詞或者臟詞檢測算法。

經典AC算法

經典的AC算法由三部分構成,goto表,fail表和output表,共包含四種具體的算法,分別是計算三張查找表的算法以及AC算法本身。

goto表是由模式集合P中的所有模式構成的狀態轉移自動機。(goto表就是一棵trie樹)

failure表作用是在goto表中匹配失敗后狀態跳轉的依據,這點與KMP中next表的作用相似。(這個表是trie樹沒有的,加了這個表,AC自動機就看起來不像一棵樹,而像一個圖)

output表示輸出,又稱:emits,即代表到達某個狀態后某個模式串匹配成功

AC自動機本質上來說是一種基于trie樹的kmp算法,AC算法需要三個函數來進行字符串匹配,而且這三個函數的求解都和一個確定的DFA(有限狀態自動機)有關。

普通DFA算法

確定性有窮自動機,用于正則表達式的匹配,最長左子式匹配

使用hashmap
public void createKeyWord(String keyWord) {
        Map nowMap = sensitiveWordMap;
        for (Character c : keyWord.toCharArray()) {
            Object obj = nowMap.get(c);
            if (obj == null) {
                Map childMap = new HashMap<>();
                childMap.put("isEnd", "false");
                nowMap.put(c, childMap);
                nowMap = childMap;
            } else {
                nowMap = (Map) obj;
            }
        }
        nowMap.put("isEnd", "true");
    }
使用自定義數據結構
public class WordNode {
    private int value; // 節點名稱
    private List subNodes; // 子節點
    private boolean isLast;// 默認false

    public WordNode(int value) {
        this.value = value;
    }
    public WordNode(int value, boolean isLast) {
        this.value = value;
        this.isLast = isLast;
    }
    //......
}    
doc

字符串多模式匹配:AC算法

Java實現DFA算法對敏感詞、廣告詞過濾功能

敏感詞過濾的算法原理之 Aho-Corasick 算法

敏感詞過濾的算法原理之DFA算法

AC自動機和Fail樹

基于雙數組的AC匹配算法學習

文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。

轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/70247.html

相關文章

  • 如何通過人工智能“避開”內容安全的“坑”?

    摘要:人工智能技術的初步應用隨著網絡強國戰略思想加強網絡內容建設等指導思想的推出和強化,內容安全已經成為互聯網企業生存和發展的生命線。 歡迎訪問網易云社區,了解更多網易技術產品運營經驗。 10月16日,2018年 AIIA人工智能開發者大會在蘇州舉辦。會議邀請了國內外人工智能產業知名人物、國家政府主管部門、行業內頂尖企業、知名學者代表、開源社區優秀貢獻團隊及個人,共同交流了技術現狀趨勢、生態...

    _DangJin 評論0 收藏0
  • 深度學習在美團點評的應用

    摘要:基于深度學習的語義匹配語義匹配技術,在信息檢索搜索引擎中有著重要的地位,在結果召回精準排序等環節發揮著重要作用。在美團點評業務中主要起著兩方面作用。 寫在前面美團點評這兩年在深度學習方面進行了一些探索,其中在自然語言處理領域,我們將深度學習技術應用于文本分析、語義匹配、搜索引擎的排序模型等;在計算機視覺領域,我們將其應用于文字識別、目標檢測、圖像分類、圖像質量排序等。下面我們就以語義匹配、圖...

    DirtyMind 評論0 收藏0
  • Trie樹 php 實現敏感過濾

    摘要:在樹中,每個節點表示一個狀態,每條邊表示一個字符,從根節點到葉子節點經過的邊即表示一個詞條。查找一個詞條最多耗費的時間只受詞條長度影響,因此的查找性能是很高的,跟哈希算法的性能相當。 Last-Modified: 2019年5月10日15:25:35 參考文章 c++ 使用map實現Trie樹 關鍵詞過濾擴展,用于檢查一段文本中是否出現敏感詞,基于Double-Array Trie...

    王笑朝 評論0 收藏0
  • Spring Boot項目實踐之問答社區

    摘要:異步事件處理本項目涉及到多種異步事件的處理。即是的粉絲,是的關注對象。模式定義優缺點推事件觸發后廣播給所有粉絲。具體來說,推模式就是事件觸發后產生,觸發事件的用戶下所有粉絲的實現中都存入該的。 項目源代碼已托管在 Github,歡迎 Star、Fork。 Q & A 問答社區 QA 是一個基于 B/S 架構而設計開發的社區網站。 showImg(https://segmentfault...

    binaryTree 評論0 收藏0

發表評論

0條評論

劉厚水

|高級講師

TA的文章

閱讀更多
最新活動
閱讀需要支付1元查看
<