摘要:隨著機器學習在分析社交媒體趨勢的數據科學家中風靡一時,在這一領域變得非常流行的一種特殊技術是網絡分析。一個場景,例如,很明顯誰將贏得總統職位,或英國投票退出歐盟。可以通過使用機器學習技術來分析來自社交網絡的流數據并從該數據進行有意義的預測。
來源 | 愿碼(ChainDesk.CN)內容編輯
愿碼Slogan | 連接每個程序員的故事
網站 | http://chaindesk.cn
愿碼愿景 | 打造全學科IT系統免費課程,助力小白用戶、初級工程師0成本免費系統學習、低成本進階,幫助BAT一線資深工程師成長并利用自身優勢創造睡后收入。
官方公眾號 | 愿碼 | 愿碼服務號 | 區塊鏈部落
免費加入愿碼全思維工程師社群 | 任一公眾號回復“愿碼”兩個字獲取入群二維碼
本文閱讀時長:9min
本文說明了如何運用Python API使用Twitter庫連接到Twitter帳戶。具體來說,此API允許用戶提取與特定Twitter帳戶相關的大量數據,以及通過 Python 管理 Twitter 的帖子(例如一次發布多個推文)。
即使你是 Python 的初學者, 使用 Twitter Python 依賴包在分析方面也非常有用。例如,雖然Web開發人員可能更傾向于使用PHP等語言來連接API,但Python可以更靈活地分析數據的趨勢和統計數據。因此,數據科學家和其他分析師會發現Python更適合這個目的。
我們將從Python連接到Twitter API的一些基本步驟開始,然后查看如何流式傳輸所需的數據。需要注意的是,雖然Twitter庫(以及其他Python庫,如Tweepy和Twython)可以使用數據執行大量不同的任務,但我們將專注于本文中的一些更基本(和有用)的查詢,解決以下問題:
使用適當的憑據將Python連接到Twitter API
下載與特定帳戶關聯的推文
下載帳戶的所有關注和關注用戶的列表
一次發布多條推文
在Twitter上自定義搜索特定術語的實例。
1.將Python連接到Twitter API本教程使用iPython作為Python接口連接到Twitter。為了連接到API,我們需要獲取Consumer Key,Consumer Secret和Access Token Secret。
要獲得這些,您需要在apps.twitter.com上登錄您的帳戶。到那里后,系統會提示您創建一個應用程序:
創建應用程序后,您將在Keys and Access Tokens部分下找到相關的密鑰和令牌。
首先,我們在終端中安裝python-twitter庫,如下所示:
pip install python twitter
完成后,我們導入Twitter庫并輸入憑據,如下所示:
import twitter api = twitter.Api(consumer_key="your_consumer_key", consumer_secret="your_consumer_secret", access_token_key="your_access_token_key", access_token_secret="your_access_token_secret")
print(api.VerifyCredentials())
輸入正確的憑證后,與API的連接即告完成,我們現在可以通過Python平臺控制我們的Twitter帳戶!
2.下載用戶時間線現在我們已經將Python連接到Twitter API,我們可以繼續開始遠程使用不同的Twitter功能。例如,如果我們希望下載推文的用戶時間線,我們使用如下方法(并指定相應帳戶的屏幕名稱),然后使用該功能顯示結果:
statuses = api.GetUserTimeline(screen_name="Michael Grogan") print([s.text for s in statuses])
一旦我們輸入了上述內容,我們就會在Python界面中看到相應的時間軸:
3.下載以下和以下聯系人Twitter庫還使我們能夠下載特定用戶正在關注的帳戶列表,以及作為該特定用戶的關注者的帳戶。為此,我們使用前者,后者使用:
users = api.GetFriends() print([u.name for u in users])
followers = api.GetFollowers() print([f.name for f in followers])
請注意,我們還可以設置我們希望獲取的用戶數的上限。例如,如果我們希望為任何特定帳戶獲取100個關注者,我們可以通過向total_count函數添加變量來實現,如下所示:
followers = api.GetFollowers(total_count=100) print([f.name for f in followers])4.發布多個推文
使用Twitter API的一個巧妙之處是能夠一次發布多條推文。例如,我們可以使用該命令同時發布以下兩條推文(同樣,使用該功能進行確認)。一旦我們轉到相關的Twitter帳戶,我們就會看到這兩條推文都已發布:
status = api.PostUpdate("How to calculate the Variance Inflation Factor in R: http://www.michaeljgrogan.com/ordinary-least-squares-an-analysis-of-stock-returns/ #rstats #datascience #programming") print(status.text)
status = api.PostUpdate("#BigData Scientists Earn 10X to 15X More Money Compared to Engineers, CAs http://bit.ly/1NoAgto #datascience") print(status.text)5.搜索推文
Twitter庫中包含的getsearch()函數是一個特別強大的工具。此功能允許我們在Twitter上搜索特定術語。請注意,這適用于已輸入特定術語的所有用戶,而不僅僅是我們在Python中提供憑據的帳戶。
例如,讓我們在Python中搜索術語“bigdata”。我們設置的參數是自2016年11月21日起包含該術語的推文,我們選擇限制流式傳輸的推文數量為10:
api.GetSearch(term="bigdata", since=2016-11-21, count=10)
請注意,我們可以通過各種方式自定義GetSearch()函數,具體取決于我們希望如何提取數據。例如,如果沒有指定日期,這將花費更長的時間來流式傳輸,我們也可以選擇在2016年11月21日之前收集包含術語“bigdata”的推文,如下所示:
api.GetSearch(term="bigdata", until=2016-11-21, count=10)
值得注意的是,此函數在我們在until變量下指定的日期之前下載最多7天的數據。
此外,我們不僅限于僅通過術語搜索GetSearch。例如,假設我們希望通過地理位置搜索推文 - 特別是自11月18日以來在紐約時代廣場1英里范圍內發送的推文(請注意,距離可以使用mi或km分別以英里或公里格式化):
api.GetSearch(geocode="40.758896,-73.985130,1mi", since=2016-11-18)
運行該函數后,我們看到Python返回以下推文(當然,還有什么更好的地方可以找到Donald Trump!):GetSearch()
如何使用這些數據?如前所述,Python對流式社交網絡數據極具吸引力的一個特殊原因是能夠對我們收集的信息進行深入的數據分析。
例如,我們已經看到了如何使用位置搜索推文GetSearch。隨著機器學習在分析社交媒體趨勢的數據科學家中風靡一時,在這一領域變得非常流行的一種特殊技術是網絡分析。這種技術實際上可以顯示分散的數據(或節點)以形成緊密的網絡,通常某些節點被證明是一個焦點。例如,假設我們要分析全球十個不同地點的1000條最受歡迎的推文。
在隨機的某一天,盡管我們看到網絡中不同推文之間存在一些相關性,但我們可能仍會發現倫敦推文上的主題標簽與紐約推文的主題標簽差別很大。然而,在美國大選之夜或英國退歐這樣的重大世界事件中,當Twitter對這一特定主題發展趨勢時,發現網絡往往更加緊密,因此,在這種情況下,情感分析的機會更多。一個場景,例如,很明顯誰將贏得總統職位,或英國投票退出歐盟。人們通常會看到網絡以不同的方式聚集,這取決于趨勢推文,因為可以獲得更多的實時信息。
這只是Python的優勢之一。雖然使用API連接到Twitter(可以在許多編程語言中完成)是一回事,但是能夠使用分析以有意義的方式對數據進行排序是另一回事。可以通過Python使用機器學習技術來分析來自社交網絡的流數據并從該數據進行有意義的預測。
結論模塊文檔提供了可用于Python下載,過濾和操作數據的不同功能的非常詳細的描述。最后,雖然我們還研究了使用API直接發布到Twitter的方法,但上述技術在分析趨勢時尤其有用,例如標簽流行度,按位置搜索術語的頻率等等。在這方面,通過Python與Twitter交互對于那些希望對收集的信息實施數據分析技術的人特別有用。
當然,與Twitter的API交互可以使用多種語言完成,具體取決于您的最終目標。如果目標是Web開發或設計,那么PHP或Ruby可能是您最好的選擇。但是,如果您的目標是使用從Twitter獲得的數據進行有意義的分析,那么Python就是不二之選。
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/43583.html
摘要:自去年以來,微服務受到了前所未有的關注,眾多的互聯網巨頭開始實施微服務架構并取得了不錯的反響,話不多說,今天我們就為大家盤點一下谷歌亞馬遜等十大科技公司的微服務實踐案例。 自去年以來,微服務受到了前所未有的關注,眾多的互聯網巨頭開始實施微服務架構并取得了不錯的反響,話不多說,今天我們就為大家盤點一下谷歌、亞馬遜等十大科技公司的微服務實踐案例。 谷歌 隨著多元化微服務的流行,越來越多的服...
摘要:蠎周刊年度最贊親俺們又來回顧又一個偉大的年份兒包去年最受歡迎的文章和項目如果你錯過了幾期就這一期不會丟失最好的嗯哼還為你和你的準備了一批紀念裇從這兒獲取任何時候如果想分享好物給大家在這兒提交喜歡我們收集的任何意見建議通過來吧原文 Title: 蠎周刊 2015 年度最贊Date: 2016-01-09 Tags: Weekly,Pycoder,Zh Slug: issue-198-to...
摘要:今天學習如何使用斯坦福來進行情感分析。從官方網站下載斯坦福包。啟用使用來進行依賴注入。情感分析器創建了一個叫的類,這個類就是對某一條推文進行情感分析的。然后對每一個搜索條件找到對應的推文,并做情感分析。最后將返回結果列表給用戶。 編者注:我們發現了有趣的系列文章《30天學習30種新技術》,正在翻譯,一天一篇更新,年終禮包。下面是第 20 天的內容。 今天學習如何使用斯坦福Core...
摘要:簡稱,是基于聚焦行業應用且提供商業支持的分布式深度學習框架,其宗旨是在合理的時間內解決各類涉及大量數據的問題。是負責開發的用編寫,通過引擎加速的深度學習框架,是目前受關注最多的深度學習框架。 作者簡介魏秀參,曠視科技 Face++ 南京研究院負責人。南京大學 LAMDA 研究所博士,主要研究領域為計算機視覺和機器學習。在相關領域較高級國際期刊如 IEEE TIP、IEEE TNNLS、Mac...
摘要:基于大量的數據統計,網球是一種很好的預測類體育項目。數據科學家根據歷史數據和玩家信息來構建預測模型,并將結果與博彩公司的評估進行比較。目標是找出機器學習模型與博彩公司評估之間的差距,從而有機會獲勝。這是一個很好的實際數據科學項目。 作者:chen_h微信號 & QQ:862251340微信公眾號:coderpai簡書地址:https://www.jianshu.com/p/56c......
閱讀 2146·2021-10-12 10:11
閱讀 846·2021-10-09 09:41
閱讀 3760·2021-09-09 11:37
閱讀 1940·2021-09-08 10:41
閱讀 2641·2019-08-30 12:58
閱讀 2373·2019-08-30 10:58
閱讀 1278·2019-08-26 13:40
閱讀 4113·2019-08-26 13:36