5083-Bigram 分詞

wwolf 發布于2019-08-16 18:01 / 456人閱讀

摘要：前言的分詞給出第一個詞和第二個詞，考慮在某些文本中可能以形式出現的情況，其中緊隨出現，緊隨出現。對于每種這樣的情況，將第三個詞添加到答案中，并返回答案。

前言

Weekly Contest 140的 Bigram 分詞：

給出第一個詞 first 和第二個詞 second，考慮在某些文本 text 中可能以 "first second third" 形式出現的情況，其中 second 緊隨 first 出現，third 緊隨 second 出現。

對于每種這樣的情況，將第三個詞 "third" 添加到答案中，并返回答案。

示例1：

輸入：text = "alice is a good girl she is a good student", first = "a", second = "good"
輸出：["girl","student"]

示例2：

輸入：text = "we will we will rock you", first = "we", second = "will"
輸出：["we","rock"]

提示：

1 <= text.length <= 1000

text 由一些用空格分隔的單詞組成，每個單詞都由小寫英文字母組成

1 <= first.length, second.length <= 10

first 和 second 由小寫英文字母組成

解題思路

本題需要注意以下兩點：

first second third三個單詞是要連續出現的，例如

輸入：text = "alice is a good girl she is a really good student", first = "a", second = "good"
輸出：["girl"]

first second third三個單詞中的third可能是下一次循環的first，例如示例2

實現代碼

    /**
     * 5083. Bigram 分詞
     * @param text
     * @param first
     * @param second
     * @return
     */
    public String[] findOcurrences(String text, String first, String second) {
        // 按空格分割單詞
        String[] words = text.split(" ");
        List list = new ArrayList<>();
        // 匹配第一個單詞的索引
        int firstIndex = -1;
        // 匹配第二個單詞的索引
        int secondIndex = -1;
        for (int i = 0; i < words.length; i++) {
            String word = words[i];
            if (firstIndex >= 0 && secondIndex > 0) { // 判斷前兩個單詞是否已經匹配
                firstIndex = -1; // 重置索引
                secondIndex = -1; // 重置索引
                list.add(word);
            }
            // 判斷是否為第二個單詞，判斷條件為
            // 1. 當前單詞與第二個單詞相同
            // 2. 第一個單詞已經匹配
            // 3. 第二個單詞緊跟著第一個單詞之后出現（secondIndex = firstIndex+1）
            // 此處先判斷第二個單詞是為了處理第三個單詞為第一個單詞的情況
            if (word.equals(second) && firstIndex >= 0 && firstIndex == i - 1) {
                secondIndex = i;
                continue; // 匹配則中斷當前循環
            } else {
                // 第一個單詞已經匹配，但是第二個單詞不匹配，重置第一個單詞的匹配結果
                if (firstIndex >= 0) {
                    firstIndex = -1;
                }
            }
            // 判斷是否為第一個單詞
            // 1. 第一個單詞未匹配
            // 2. 當前單詞與第一個單詞相同
            if (firstIndex < 0 && word.equals(first)) {
                firstIndex = i;
                continue; // 匹配則中斷當前循環
            }
        }
        String[] result = new String[list.size()];
        return list.toArray(result);
    }

GPU云服務器云服務器文本分詞分詞概述分詞技術分詞算法

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://specialneedsforspecialkids.com/yun/74893.html

推薦十款java開源中文分詞組件

摘要：最初，它是以開源項目為應用主體的，結合詞典分詞和文法分析算法的中文分詞組件。填補了國內中文分詞方面開源組件的空白，致力于此并希翼成為互聯網網站首選的中文分詞開源組件。中文分詞追求分詞的高效率和用戶良好體驗。 1：Elasticsearch的開源中文分詞器 IK Analysis(Star:2471) IK中文分詞器在Elasticsearch上的使用。原生IK中文分詞是從文件系統中讀取...

masturbator 2019-08-15 10:37 評論0 收藏0
分詞，難在哪里？科普+解決方案！

摘要：分詞的算法中文分詞有難度，不過也有成熟的解決方案。例如通過人民日報訓練的分詞系統，在網絡玄幻小說上，分詞的效果就不會好。三的優點是開源的，號稱是中，最好的中文分詞組件。 showImg(https://segmentfault.com/img/remote/1460000016359704?w=1350&h=900); 題圖：by Lucas Davies 一、前言分詞，我想是大多數...

Steven 2019-07-30 17:48 評論0 收藏0

發表評論

登陸后可評論

0條評論

wwolf

男|高級講師

我要關注我要私信

TA的文章

#黑五#UltraVPS.eu：洛杉磯、英國、荷蘭、德國、立陶宛等特價KVM VPS

閱讀 2315·2021-11-24 10:33
【quickly-css】（極易上手）一款使用Sass構建的高效開發CSS庫

閱讀 1385·2019-08-30 15:43
postcss-bem插件在webpack4以上版本報錯處理 .moveTo is not a fu

閱讀 3276·2019-08-29 17:24
2017文章總結

閱讀 3481·2019-08-29 14:21
removeAttribute getAttribute setAttribute

閱讀 2220·2019-08-29 13:59
移動端判斷用戶是否安裝客戶端

閱讀 1735·2019-08-29 11:12
css學習歸納總結（一）

閱讀 2811·2019-08-28 18:00
四種表單驗證方法的分析和比較

閱讀 1849·2019-08-26 12:17

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優惠，快來選購！

5083-Bigram 分詞

相關文章

推薦十款java開源中文分詞組件

分詞，難在哪里？科普+解決方案！

發表評論

0條評論

wwolf

男|高級講師

TA的文章

#黑五#UltraVPS.eu：洛杉磯、英國、荷蘭、德國、立陶宛等特價KVM VPS

【quickly-css】（極易上手）一款使用Sass構建的高效開發CSS庫

postcss-bem插件在webpack4以上版本報錯處理 .moveTo is not a fu

2017文章總結

removeAttribute getAttribute setAttribute

移動端判斷用戶是否安裝客戶端

css學習歸納總結（一）

四種表單驗證方法的分析和比較

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優惠，快來選購！

5083-Bigram 分詞

相關文章

發表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優惠，快來選購！