requests.get 下載html網頁
bs4.BeautifulSoup 分析html內容
from requests import getfrom bs4 import BeautifulSoup as bsfrom datetime import datetime as dtdef Today(style=1): date = dt.today() if style!=1: return f"{date.month}月{date.day}日" return f"{date.year}-{date.month:02}-{date.day:02}"def SinaNews(style=1): url1 = "http://news.***.com.cn/" if style==1: url1 += "world" elif style==2: url1 += "china" else: url1="https://mil.news.sina.com.cn/" text = get(url1) text.encoding="uft-8" soup = bs(text.text,"html.parser") aTags = soup.find_all("a") return [(t.text,t["href"]) for t in aTags if Today() in str(t)]
>>> for i,news in enumerate(SinaNews(1)):
?? ?print(f"No{i+1}:",news[0])?? ?
No1: 外媒:*****
No2: 日媒:******
.............
內容已馬賽克!!!
>>>?
首次做爬蟲,為了方便下手找一個不用破解網頁的某新聞網站,下載網頁就能直接取得內容。其中的國際、國內和軍事新聞三個網頁作內容源,requests.get下載網頁后,分析所得html文本,所有標記帶日期剛好所需要的。
然后再根據url下載正文網頁,分析可知id=‘article’的
>>> def NewsDownload(url): html = get(url) html.encoding="uft-8" soup = bs(html.text,"html.parser") text = soup.find("div",id="article").get_text().strip() text = text.replace("點擊進入專題:","相關專題:") text = text.replace(" ","/n ") while "/n/n/n" in text: text = text.replace("/n/n/n","/n/n") return text>>> url = "https://******/w/2021-09-29/doc-iktzqtyt8811588.shtml">>> NewsDownload(url)"原標題:******************************************************">>>
使用內置的圖形界面庫 tkinter 控件 Text 、Listbox、Scrollbar、Button。設置基本屬性、放置位置、綁定命令,然后調試到程序完工!
源代碼 News.pyw :其中涉及的網站名稱已馬賽克!
from requests import getfrom bs4 import BeautifulSoup as bsfrom datetime import datetime as dtfrom os import pathimport tkinter as tkdef Today(style=1): date = dt.today() if style!=1: return f"{date.month}月{date.day}日" return f"{date.year}-{date.month:02}-{date.day:02}"def SinaNews(style=1): url1 = "http://news.****.com.cn/" if style==1: url1 += "world" elif style==2: url1 += "china" else: url1="https://mil.****.com.cn/" text = get(url1) text.encoding="uft-8" soup = bs(text.text,"html.parser") aTags = soup.find_all("a") return [(t.text,t["href"]) for t in aTags if Today() in str(t)]def NewsList(i): global news news = SinaNews(i) tList.delete(0,tk.END) for idx,item in enumerate(news): tList.insert(tk.END,f"{idx+1:03} {item[0]}") tText.config(state=tk.NORMAL) tText.delete(0.0,tk.END) tText.config(state=tk.DISABLED) NewsShow(0) def NewsList1(): NewsList(1)def NewsList2(): NewsList(2)def NewsList3(): NewsList(3)def NewsShow(idx): if idx!=0: idx = tList.curselection()[0] title,url = news[idx][0],news[idx][1] html = get(url) html.encoding="uft-8" soup = bs(html.text,"html.parser") text = soup.find("div",id="article").get_text().strip() text = text.replace("點擊進入專題:","相關專題:") text = text.replace(" ","/n ") while "/n/n/n" in text: text = text.replace("/n/n/n","/n/n") tText.config(state=tk.NORMAL) tText.delete(0.0,tk.END) tText.insert(tk.END, title+"/n/n"+text) tText.config(state=tk.DISABLED) def InitWindow(self,W,H): Y = self.winfo_screenheight() winPosition = str(W)+"x"+str(H)+"+8+"+str(Y-H-100) self.geometry(winPosition) icoFile = "favicon.ico" f = path.exists(icoFile) if f: win.iconbitmap(icoFile) self.resizable(False,False) self.wm_attributes("-topmost",True) self.title(bTitle[0]) SetControl() self.update() self.mainloop()def SetControl(): global tList,tText tScroll = tk.Scrollbar(win, orient=tk.VERTICAL) tScroll.place(x=450,y=320,height=300) tList = tk.Listbox(win,selectmode=tk.BROWSE,yscrollcommand=tScroll.set) tScroll.config(command=tList.yview) for idx,item in enumerate(news): tList.insert(tk.END,f"{idx+1:03} {item[0]}") tList.place(x=15,y=320,width=435,height=300) tList.select_set(0) tList.focus() bW,bH = 70,35 #按鈕的寬高 bX,bY = 95,270 #按鈕的坐標 tBtn1 = tk.Button(win,text=bTitle[1],command=NewsList1) tBtn1.place(x=bX,y=bY,width=bW,height=bH) tBtn2=tk.Button(win,text=bTitle[2],command=NewsList2) tBtn2.place(x=bX+100,y=bY,width=bW,height=bH) tBtn3 = tk.Button(win,text=bTitle[3],command=NewsList3) tBtn3.place(x=bX+200,y=bY,width=bW,height=bH) tScroll2 = tk.Scrollbar(win, orient=tk.VERTICAL) tScroll2.place(x=450,y=10,height=240) tText = tk.Text(win,yscrollcommand=tScroll2.set) tScroll2.config(command=tText.yview) tText.place(x=15,y=10,width=435,height=240) tText.config(state=tk.DISABLED,bg="azure",font=("宋體", "14")) NewsShow(0) tList.bind("",NewsShow)if __name__=="__main__": win = tk.Tk() bTitle = ("今日新聞","國際新聞","國內新聞","軍事新聞") news = SinaNews() InitWindow(win,480,640)
奉上全部代碼,在此就不作詳細分析了,如有需要請留言討論。我的使用環境 Win7+Python3.8.8 下可以無錯運行!文中涉及網站名稱已打上馬賽克,猜不出名字的可以私下里問我。
使用pyinstaller.exe編譯成單個運行文件,注意源碼文件的后綴名應該用.pyw否則會有cmd黑窗口出現。還有一個小知識點,任意網站的Logo圖標icon文件,一般都能在根目錄里下載到,即:
http(s)://websiteurl.com(.cn)/favicon.ico
編譯命令如下:
D:/>pyinstaller --onefile --nowindowed --icon="D:/favicon.ico" News.pyw
編譯完成后,在dist文件夾下生成一個News.exe可執行文件,大小約15M還能接受。?
反正拿走就能直接用,臨走前給個一鍵三連吧,謝謝!
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/121684.html
摘要:的分類的六要素的生命周期。第二階段測試工具自學時會用即可,不必精通需求分析工具用例編寫相關函數統計數據整合條件判定數據有效性等性能測試工具。語言數據庫都是必須的,當然測試工具也是要會的。 ?軟實力? ● 關于剛入職時 ●?關于對待問題 ●?關于執行力 ●?關于個性 ●?關于下...
摘要:適用人群爬蟲方向數據分析方向非程序員加薪四開發前后端開發是程序員職業中的熱門,目前來講,人才缺口依然很大。寄語上面就是所有方向的學習路線了,把你感興趣的方向掌握了之后,你去找工作不是什么問題的。 ...
摘要:前言大家好,我是安果之前寫過一篇文章,文中提出了一種方案,可以實現每天自動給微信群群發新聞早報如何利用爬蟲實現給微信群發新聞早報詳細但是對于很多人來說,首先編寫一款需要一定的移動端開發經驗,其次還需要另外編寫無障礙服務應用,如此顯得有一定難1. 前言大家好,我是安果!之前寫過一篇文章,文中提出了一種方案,可以實現每天自動給微信群群發新聞早報如何利用 Python 爬蟲實現給微信群發新聞早報?...
摘要:而且我們一直在講的,也可以用中文來編程。帶來的一個額外功能就是,你可以使用中文作為變量名。另外如果在代碼里寫中文,別忘了在開頭加上或的聲明。 現代計算機和編程的起源和推動力量主要源自美國,再加上26個字母很便于表示(算上大小寫,6位bit就夠了),因此英語一直是編程領域的不二之選。但這就給部分非英語國家的編程學習者帶來一些困擾。以至于有些人還沒開始學,就擔心自己的英語問題。這完全沒必要...
閱讀 1480·2021-11-17 09:33
閱讀 1260·2021-10-11 10:59
閱讀 2892·2021-09-30 09:48
閱讀 1904·2021-09-30 09:47
閱讀 3023·2019-08-30 15:55
閱讀 2335·2019-08-30 15:54
閱讀 1491·2019-08-29 15:25
閱讀 1644·2019-08-29 10:57