如何使用python抓取issues.apache.org上的bug列表

jerryloveemily 發(fā)布于2019-07-30 17:38 / 870人閱讀

摘要：問題描述開源在的項目中，通常我們會關心我們開源的項目中每天的數(shù)量最新的條問題，統(tǒng)計各模塊的數(shù)量，按照人名統(tǒng)計等工作。于是我想到用一個腳本每天定時運行來解決數(shù)據(jù)的問題。

問題描述

開源在Apache的項目中，通常我們會關心我們開源的項目中每天bug的數(shù)量、最新的10條問題，統(tǒng)計各模塊的bug數(shù)量，按照人名統(tǒng)計等工作。但這些數(shù)據(jù)都在apache網(wǎng)站上，存在兩個問題，一個是國內(nèi)平常訪問Apache如果不走代理就會比較慢；二是數(shù)據(jù)沒辦法供內(nèi)部系統(tǒng)使用。于是我想到用一個腳本每天定時運行來解決數(shù)據(jù)的問題。通過腳本從Apache上把數(shù)據(jù)拉下來存儲在自己內(nèi)部數(shù)據(jù)庫中，基于本地數(shù)據(jù)庫運行的內(nèi)部系統(tǒng)可以完成各種圖表展示和數(shù)據(jù)統(tǒng)計的工作，這樣即提高了數(shù)據(jù)訪問的效率，也可以很好的和內(nèi)部系統(tǒng)結(jié)合完成自動化的問題跟蹤和解決。同時還可以將外部系統(tǒng)和內(nèi)部bug跟蹤系統(tǒng)進行對比，將重復的問題自動化的補充答案。等等，優(yōu)點多多。
歡迎大家打開腦洞提出更多的方案！

1.使用說明

腳本依賴:

此腳本依賴于requests,各位點擊連接自取，安裝requests可能會依賴于pip，大家可以把python升級到2.7以上安裝pip，2.7以下用網(wǎng)上教程會報錯。

腳本使用說明:

python SCRIPT_NAME FILE_NAME
SCRIPT_NAME:下面這段代碼所在的文件名
FILE_NAME: 將數(shù)據(jù)導入到的目標文件名，后綴默認為csv

示例:

python jira.py ~/dataFile

2.分享完整代碼

打開python的文件jira.py，內(nèi)容如下：

import requests
import sys
reload(sys)
##設置系統(tǒng)編碼，如果不是utf-8會有錯誤
sys.setdefaultencoding("utf-8")

dataFileName=sys.argv[1]
jiraFileName=dataFileName+".csv"
print "Load from JIRA -------------------"
##load from JIRA
url = "https://issues.apache.org/jira/sr/jira.issueviews:searchrequest-csv-all-fields/temp/SearchRequest.csv?jqlQuery=project+%3D+TRAFODION+AND+resolution+%3D+Unresolved+ORDER+BY+priority+DESC%2C+updated+DESC"
r = requests.get(url)
with open(jiraFileName, "w") as f:
    f.write(r.text)

3.遇到的問題總結(jié)

1)操作系統(tǒng)中最初用的是python2.6的環(huán)境，結(jié)果安裝pip一直報錯，先是報沒有權(quán)限，這個只要用sudo可以解決；接下來是報一些語法錯誤,如下圖：
2)系統(tǒng)編碼問題，不設置sys.setdefaultencoding("utf-8")，python腳本就會暴出編碼問題。

GPU云服務器云服務器 python如何使用如何使用python 如何安裝使用python 如何使用python安裝

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://specialneedsforspecialkids.com/yun/42319.html

如何用Python抓抖音上的小姐姐

摘要：比如分鐘破譯朋友圈測試小游戲文章里用的方法但有些根本就沒有提供網(wǎng)頁端，比如今年火得不行的抖音。所以常用的方式就是通過在電腦上裝一些抓包軟件，將手機上的網(wǎng)絡請求全部顯示出來。總結(jié)下，重點是的抓取，關鍵是配置代理證書，難點是對請求的分析。爬蟲的案例我們已講得太多。不過幾乎都是網(wǎng)頁爬蟲。即使有些手機才能訪問的網(wǎng)站，我們也可以通過 Chrome 開發(fā)者工具的手機模擬功能來訪問，以便...

FingerLiu 2019-07-30 18:07 評論0 收藏0
編寫爬蟲的一些感想（就是高興）

摘要：如果有人有興趣的話，可以編寫則個下面，我會說明在編寫爬蟲過程中的所思所想。文章讀取完畢最后，還要再編寫一個語句，判斷是運行還是導入。文章結(jié)束前的一些話嗯，本文到這里就結(jié)束了。今天，根據(jù)網(wǎng)頁的結(jié)構(gòu)，嘗試了下如何抓取煎蛋首頁上的文章。目標很簡單：根據(jù)首頁上面的文章鏈接，載入文章，而后將文章的標題和正文（不帶圖片）抓取下來。抓取首頁上面文章的鏈接，標題，作者和所屬標簽。按標題將文章...

inapt 2019-07-24 18:26 評論0 收藏0
一鍵下載：將知乎專欄導出成電子書

摘要：在知乎上，你一定關注了一些不錯的專欄比如的編程教室。有需要的請在公眾號里回復爬蟲實戰(zhàn)源碼下載獲取知乎專欄下載器源碼，請在公眾號的編程教室里回復關鍵字知乎除了代碼外，本專欄打包好的也一并奉上，歡迎閱讀與分享。老是有同學問，學了 Python 基礎后不知道可以做點什么來提高。今天就再用個小例子，給大家講講，通過 Python 和爬蟲，可以完成怎樣的小工具。在知乎上，你一定關注了...

ivyzhang 2019-07-30 17:52 評論0 收藏0