Day 20: 斯坦福CoreNLP —— 用Java給Twitter進(jìn)行情感分析

TesterHome 發(fā)布于2019-08-14 11:36 / 1070人閱讀

摘要：今天學(xué)習(xí)如何使用斯坦福來進(jìn)行情感分析。從官方網(wǎng)站下載斯坦福包。啟用使用來進(jìn)行依賴注入。情感分析器創(chuàng)建了一個叫的類，這個類就是對某一條推文進(jìn)行情感分析的。然后對每一個搜索條件找到對應(yīng)的推文，并做情感分析。最后將返回結(jié)果列表給用戶。

編者注：我們發(fā)現(xiàn)了有趣的系列文章《30天學(xué)習(xí)30種新技術(shù)》，正在翻譯，一天一篇更新，年終禮包。下面是第 20 天的內(nèi)容。

今天學(xué)習(xí)如何使用斯坦福CoreNLP Java API來進(jìn)行情感分析(sentiment analysis)。前幾天，我還寫了一篇關(guān)于如何使用TextBlob API在Python里做情感分析，我已經(jīng)開發(fā)了一個應(yīng)用程序，會篩選出給定關(guān)鍵詞的推文(tweets)的情感，現(xiàn)在看看它能做什么。

應(yīng)用

該演示應(yīng)用程序在OpenShift http://sentiments-t20.rhcloud.com/ 運(yùn)行，它有兩個功能：

第一個功能是，如果你給定Twitter搜索條件的列表會，它會顯示最近20推關(guān)于給定的搜索詞的情緒。必須要勾選下圖所示的復(fù)選框來啟用此功能，（情感）積極的推文將顯示綠色，而消極的推文是紅色的。

第二個功能是做一些文字上的情感分析，如下圖

什么是斯坦福CoreNLP？

斯坦福CoreNLP是一個Java自然語言分析庫，它集成了所有的自然語言處理工具，包括詞性的終端（POS）標(biāo)注器，命名實(shí)體識別（NER），分析器，對指代消解系統(tǒng)，以及情感分析工具，并提供英語分析的模型文件。

準(zhǔn)備

基本的Java知識是必需的，安裝最新的Java開發(fā)工具包（JDK ），可以是OpenJDK 7或Oracle JDK 7。

從官方網(wǎng)站下載斯坦福CoreNLP包。

注冊一個OpenShift帳戶，它是完全免費(fèi)的，可以分配給每個用戶1.5 GB的內(nèi)存和3 GB的磁盤空間。

安裝RHC客戶端工具，需要有ruby 1.8.7或更新的版本，如果已經(jīng)有ruby gem，輸入 sudo gem install rhc ，確保它是最新版本。要更新RHC的話，執(zhí)行命令 sudo gem update rhc，如需其他協(xié)助安裝RHC命令行工具，請參閱該頁面： https://www.openshift.com/developers/rhc-client-tools-install

通過 rhc setup 命令設(shè)置您的OpenShift帳戶，此命令將幫助你創(chuàng)建一個命名空間，并上傳你的SSH keys到OpenShift服務(wù)器。

Github倉庫

今天的演示應(yīng)用程序的代碼可以在GitHub找到：day20-stanford-sentiment-analysis-demo

在兩分鐘內(nèi)啟動并運(yùn)行SentimentsApp

開始創(chuàng)建應(yīng)用程序，名稱為sentimentsapp。

$ rhc create-app sentimentsapp jbosseap --from-code=https://github.com/shekhargulati/day20-stanford-sentiment-analysis-demo.git

還可以使用如下指令：

$ rhc create-app sentimentsapp jbosseap -g medium --from-code=https://github.com/shekhargulati/day20-stanford-sentiment-analysis-demo.git

這將為應(yīng)用程序創(chuàng)建一個容器，設(shè)置所有需要的SELinux政策和cgroup的配置，OpenShift也將創(chuàng)建一個私人git倉庫并克隆到本地。然后，它會復(fù)制版本庫到本地系統(tǒng)。最后，OpenShift會給外界提供一個DNS，該應(yīng)用程序?qū)⒃趆ttp://newsapp-{domain-name}.rhcloud.com/ 下可以訪問（將 domain-name 更換為自己的域名）。

該應(yīng)用程序還需要對應(yīng)Twitter應(yīng)用程序的4個環(huán)境變量，通過去https://dev.twitter.com/apps/new 創(chuàng)建一個新的Twitter應(yīng)用程序，然后創(chuàng)建如下所示的4個環(huán)境變量。

$ rhc env set TWITTER_OAUTH_ACCESS_TOKEN= -a sentimentsapp

$ rhc env set TWITTER_OAUTH_ACCESS_TOKEN_SECRET= -a sentimentsapp

$rhc env set TWITTER_OAUTH_CONSUMER_KEY= -a sentimentsapp

$rhc env set TWITTER_OAUTH_CONSUMER_SECRET= -a sentimentsapp

重新啟動應(yīng)用程序，以確保服務(wù)器可以讀取環(huán)境變量。

$ rhc restart-app --app sentimentsapp

開始在pom.xml中為stanford-corenlp和twitter4j增加Maven的依賴關(guān)系，使用3.3.0版本斯坦福corenlp作為情感分析的API。


    edu.stanford.nlp
    stanford-corenlp
    3.3.0



    org.twitter4j
    twitter4j-core
    [3.0,)

該twitter4j依賴關(guān)系需要Twitter搜索。

通過更新 pom.xml 文件里的幾個特性將Maven項目更新到Java 7：

1.7
1.7

現(xiàn)在就可以更新Maven項目了（右鍵單擊>Maven>更新項目）。

啟用CDI

使用CDI來進(jìn)行依賴注入。CDI、上下文和依賴注入是一個Java EE 6規(guī)范，能夠使依賴注入在Java EE 6的項目中。

在 src/main/webapp/WEB-INF 文件夾下建一個名為beans.xml中一個新的XML文件，啟動CDI

搜索Twitter的關(guān)鍵字

創(chuàng)建了一個新的類TwitterSearch，它使用Twitter4J API來搜索Twitter關(guān)鍵字。該API需要的Twitter應(yīng)用程序配置參數(shù)，使用的環(huán)境變量得到這個值，而不是硬編碼。

import java.util.Collections;
import java.util.List;

import twitter4j.Query;
import twitter4j.QueryResult;
import twitter4j.Status;
import twitter4j.Twitter;
import twitter4j.TwitterException;
import twitter4j.TwitterFactory;
import twitter4j.conf.ConfigurationBuilder;

public class TwitterSearch {

    public List search(String keyword) {
        ConfigurationBuilder cb = new ConfigurationBuilder();
        cb.setDebugEnabled(true).setOAuthConsumerKey(System.getenv("TWITTER_OAUTH_CONSUMER_KEY"))
                .setOAuthConsumerSecret(System.getenv("TWITTER_OAUTH_CONSUMER_SECRET"))
                .setOAuthAccessToken(System.getenv("TWITTER_OAUTH_ACCESS_TOKEN"))
                .setOAuthAccessTokenSecret(System.getenv("TWITTER_OAUTH_ACCESS_TOKEN_SECRET"));
        TwitterFactory tf = new TwitterFactory(cb.build());
        Twitter twitter = tf.getInstance();
        Query query = new Query(keyword + " -filter:retweets -filter:links -filter:replies -filter:images");
        query.setCount(20);
        query.setLocale("en");
        query.setLang("en");;
        try {
            QueryResult queryResult = twitter.search(query);
            return queryResult.getTweets();
        } catch (TwitterException e) {
            // ignore
            e.printStackTrace();
        }
        return Collections.emptyList();

    }


}

在上面的代碼中，篩選了Twitter的搜索結(jié)果，以確保沒有轉(zhuǎn)推(retweet)、或帶鏈接的推文、或有圖片的推文，這樣做的原因是為了確保我們得到的是有文字的推。

情感分析器(SentimentAnalyzer)

創(chuàng)建了一個叫SentimentAnalyzer的類，這個類就是對某一條推文進(jìn)行情感分析的。

public class SentimentAnalyzer {

    public TweetWithSentiment findSentiment(String line) {

        Properties props = new Properties();
        props.setProperty("annotators", "tokenize, ssplit, parse, sentiment");
        StanfordCoreNLP pipeline = new StanfordCoreNLP(props);
        int mainSentiment = 0;
        if (line != null && line.length() > 0) {
            int longest = 0;
            Annotation annotation = pipeline.process(line);
            for (CoreMap sentence : annotation.get(CoreAnnotations.SentencesAnnotation.class)) {
                Tree tree = sentence.get(SentimentCoreAnnotations.AnnotatedTree.class);
                int sentiment = RNNCoreAnnotations.getPredictedClass(tree);
                String partText = sentence.toString();
                if (partText.length() > longest) {
                    mainSentiment = sentiment;
                    longest = partText.length();
                }

            }
        }
        if (mainSentiment == 2 || mainSentiment > 4 || mainSentiment < 0) {
            return null;
        }
        TweetWithSentiment tweetWithSentiment = new TweetWithSentiment(line, toCss(mainSentiment));
        return tweetWithSentiment;

    }
}

復(fù)制 englishPCFG.ser.gz 和 sentiment.ser.gz 模型到src/main/resources/edu/stanford/nlp/models/lexparser 和src/main/resources/edu/stanford/nlp/models/sentiment 文件夾下。

創(chuàng)建SentimentsResource

最后，創(chuàng)建了JAX-RS資源類。

public class SentimentsResource {

    @Inject
    private SentimentAnalyzer sentimentAnalyzer;

    @Inject
    private TwitterSearch twitterSearch;

    @GET
    @Produces(value = MediaType.APPLICATION_JSON)
    public List sentiments(@QueryParam("searchKeywords") String searchKeywords) {
        List results = new ArrayList<>();
        if (searchKeywords == null || searchKeywords.length() == 0) {
            return results;
        }

        Set keywords = new HashSet<>();
        for (String keyword : searchKeywords.split(",")) {
            keywords.add(keyword.trim().toLowerCase());
        }
        if (keywords.size() > 3) {
            keywords = new HashSet<>(new ArrayList<>(keywords).subList(0, 3));
        }
        for (String keyword : keywords) {
            List statuses = twitterSearch.search(keyword);
            System.out.println("Found statuses ... " + statuses.size());
            List sentiments = new ArrayList<>();
            for (Status status : statuses) {
                TweetWithSentiment tweetWithSentiment = sentimentAnalyzer.findSentiment(status.getText());
                if (tweetWithSentiment != null) {
                    sentiments.add(tweetWithSentiment);
                }
            }

            Result result = new Result(keyword, sentiments);
            results.add(result);
        }
        return results;
    }
}

上述代碼執(zhí)行以下操作：

檢查搜索關(guān)鍵字(searchkeywords)是否“不是無效且不為空”，然后將其拆分到一個數(shù)組里，只考慮三個搜索條件。

然后對每一個搜索條件找到對應(yīng)的推文，并做情感分析。

最后將返回結(jié)果列表給用戶。

今天就是這些，歡迎反饋。

原文 Day 20: Stanford CoreNLP--Performing Sentiment Analysis of Twitter using Java
翻譯整理 SegmentFault

GPU云服務(wù)器云服務(wù)器情感分析用python進(jìn)行數(shù)據(jù)分析 python情感分析 CoreNLP

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://specialneedsforspecialkids.com/yun/64009.html

發(fā)表評論

登陸后可評論

0條評論

TesterHome

男|高級講師

我要關(guān)注我要私信

TA的文章

sklearn

閱讀 2020·2023-04-25 22:50
【閑聊】前端轉(zhuǎn)后端是一種怎樣的體驗(yàn)

閱讀 2833·2021-09-29 09:35
阿里云云上年中鉅惠來啦！你想知道的都在這里！

閱讀 3390·2021-07-29 10:20
10行js代碼搞定滾動公告

閱讀 3153·2019-08-29 13:57
一個簡單的 PHP 時間處理擴(kuò)展

閱讀 3355·2019-08-29 13:50
Java爬蟲其實(shí)也很簡單，實(shí)用的入門級爬蟲

閱讀 3032·2019-08-26 12:10
JS原生循環(huán)生成元素

閱讀 3529·2019-08-23 18:41
Node.js運(yùn)行原理、高并發(fā)性能測試對比及生態(tài)圈匯總

閱讀 2634·2019-08-23 18:01

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

Day 20: 斯坦福CoreNLP —— 用Java給Twitter進(jìn)行情感分析

相關(guān)文章

**國外程序員整理的Java資源大全**

深度學(xué)習(xí)如何入門？

深度學(xué)習(xí)如何入門？

**spaCy：如何使用最快的NLP開發(fā)庫結(jié)合Keras來進(jìn)行深度學(xué)習(xí)**

發(fā)表評論

0條評論

TesterHome

男|高級講師

TA的文章

sklearn

【閑聊】前端轉(zhuǎn)后端是一種怎樣的體驗(yàn)

阿里云云上年中鉅惠來啦！你想知道的都在這里！

10行js代碼搞定滾動公告

一個簡單的 PHP 時間處理擴(kuò)展

Java爬蟲其實(shí)也很簡單，實(shí)用的入門級爬蟲

JS原生循環(huán)生成元素

Node.js運(yùn)行原理、高并發(fā)性能測試對比及生態(tài)圈匯總

最新活動