正在進行NLP(自然語言處理)相關任務完成后,經常碰到務必辨別并獲得省、大都市、行政區的需求。今天給大家介紹1個模塊,你只需將結構體數組傳遞給這個模塊,他就可以給你返回這個結構體數組內的省、市、區關鍵詞,趕緊一起來了解一下
正在進行NLP(自然語言處理)相關任務完成后,經常碰到務必辨別并獲得省、大都市、行政區的需求。雖然自身依據關鍵詞表1個一個搜索也可以實現獲得目的,但必須要先搜集省份關鍵詞表,相對而言比較復雜。
今天給大家介紹1個模塊,你只需將結構體數組傳遞給這個模塊,他就可以給你返回這個結構體數組內的省、市、區關鍵詞,并可以給你在圖片里標出下去,它是Cpca模塊。
1.打算
開始前,你需要保證Python和pip已成功組裝電腦上,要是沒有,能夠網站訪問本文:超全Python組裝手冊開展組裝。
(可選擇1)假如你用了Python的目的在于數據統計分析,能直接組裝Anaconda,它自帶了Python和pip.
(可選擇2)除此之外,建議大家用VSCode在線編輯器,它有很多的優勢
挑選下列任一種方法輸入指令組裝依靠:
1.Windows自然環境開啟Cmd(逐漸-運作-CMD)。
2.MacOS自然環境開啟Terminal(command+空格符鍵入Terminal)。
3.假如你用的都是VSCode在線編輯器或Pycharm,能夠直接用頁面下方Terminal.
pipinstallcpca
留意,現階段cpca模塊僅適用Python3或以上版本號。
在windows上有可能出現類似如下所示難題:
Buildingwheelforpyahocorasick(setup.py)...error
先閱讀去免費下載MicrosoftVisualC++BuildTools組裝VC++構建工具,再重新pipinstallcpca,就可以處理問題。
2.基本使用
通過兩行代碼就能實現最基本的省市區提取:
#公眾號:Python實用寶典 #2022/06/23 import cpca location_str=[ "廣東省深圳市福田區巴丁街深南中路1025號新城大廈1層", "特斯拉上海超級工廠是特斯拉汽車首座美國本土以外的超級工廠,位于中華人民共和國上海市。", "三星堆遺址位于中國四川省廣漢市城西三星堆鎮的鴨子河畔,屬青銅時代文化遺址" ] df=cpca.transform(location_str) print(df)
效果如下:
省市區地址adcode
0廣東省深圳市福田區巴丁街深南中路1025號新城大廈1層440304
1上海市None None。310000
2四川省德陽市廣漢市城西三星堆鎮的鴨子河畔,屬青銅時代文化遺址510681
注意第三條的廣漢市,cpca不僅識別到了語句中的縣級市廣漢市,還能自動匹配到其代管市的德陽市,不得不說非常強大。
如果你想獲知程序是從字符串的那個位置提取出省市區名的,可以添加一個pos_sensitive=True參數:
#公眾號:Python實用寶典 #2022/06/23 import cpca location_str=[ "廣東省深圳市福田區巴丁街深南中路1025號新城大廈1層", "特斯拉上海超級工廠是特斯拉汽車首座美國本土以外的超級工廠,位于中華人民共和國上海市。", "三星堆遺址位于中國四川省廣漢市城西三星堆鎮的鴨子河畔,屬青銅時代文化遺址" ] df=cpca.transform(location_str,pos_sensitive=True) print(df) 效果如下: (base)G:push20220623>python 1.py 省市區地址adcode省_pos市_pos區_pos 0廣東省深圳市福田區巴丁街深南中路1025號新城大廈1層440304 0 3 6 1上海市None None。310000 38-1-1 2四川省德陽市廣漢市城西三星堆鎮的鴨子河畔,屬青銅時代文化遺址510681 9-1 12 它標記出了識別到省、市、區的關鍵位置(index),當然如果是德陽市這種特殊的識別會被標記為-1.
3.高級使用
它還可以從大段文本中批量識別多個地區:
#公眾號:Python實用寶典 #2022/06/23 import cpca long_text="對一個城市的評價總會包含個人的感情。如果你喜歡一個城市,很有可能是喜歡彼時彼地的自己。" "在廣州、香港讀過書,工作過,在深圳買過房、短暫生活過,去北京出了幾次差。" "想重點比較一下廣州、深圳和香港,順帶說一下北京。總的來說,覺得廣州舒適、" "香港精致、深圳年輕氣氛好、北京大氣又粗糙。答主目前選擇了廣州。" df=cpca.transform_text_with_addrs(long_text,pos_sensitive=True) print(df) 效果如下: (base)G:push20220623>python 1.py 省市區地址adcode省_pos市_pos區_pos 0廣東省廣州市None 440100-1 44-1 1香港特別行政區None None 810000 47-1-1 2廣東省深圳市None 440300-1 58-1 3北京市None None 110000 71-1-1 4廣東省廣州市None 440100-1 86-1 5廣東省深圳市None 440300-1 89-1 6香港特別行政區None None 810000 92-1-1 7北京市None None 110000 100-1-1 8廣東省廣州市None 440100-1 110-1 9香港特別行政區None None 810000 115-1-1 10廣東省深圳市None 440300-1 120-1 11北京市None None 110000 128-1-1 12廣東省廣州市None 440100-1 143-1 不僅如此,模塊中還自帶一些簡單繪圖工具,可以在地圖上將上面輸出的數據以熱力圖的形式畫出來: #公眾號:Python實用寶典 #2022/06/23 import cpca from cpca import drawer long_text="對一個城市的評價總會包含個人的感情。如果你喜歡一個城市,很有可能是喜歡彼時彼地的自己。" "在廣州、香港讀過書,工作過,在深圳買過房、短暫生活過,去北京出了幾次差。" "想重點比較一下廣州、深圳和香港,順帶說一下北京。總的來說,覺得廣州舒適、" "香港精致、深圳年輕氣氛好、北京大氣又粗糙。答主目前選擇了廣州。" df=cpca.transform_text_with_addrs(long_text,pos_sensitive=True) drawer.draw_locations(df[cpca._ADCODE],"df.html")
運行的時候可能會報這個錯:
(base)G:push20220623>python 1.py Traceback(most recent call last): File"1.py",line 12,in<module> drawer.draw_locations(df[cpca._ADCODE],"df.html") File"G:Anaconda3libsite-packagescpcadrawer.py",line 41,in draw_locations import folium ModuleNotFoundError:No module named'folium' 使用pip安裝即可: pip install folium
然后重新運行代碼,會在當前目錄下生成df.html,雙擊打開,效果如下:
怎么用,是不是感覺非常方便?以后地點的識別用這個模塊就完全夠了。
還有更多的細節你可以訪問這個項目的Github主頁閱讀,該項目的README完全中文編寫,非常容易閱讀:
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/130266.html
摘要:基于此,我爬取了淘寶上多條月餅的銷售數據,為大家展示了一幅漂亮的可視化大屏,解決大家心目中的問題。模塊的安裝與配置這次爬取淘寶,采用的是最簡單的方式控制瀏覽器進行自動化操作,中途只需要掃碼登陸一次,即可完成整個數據的爬取。 ...
眾所周知,Python有著很強大的技術能力,比如,他可以進行實戰繪圖,還有這很強的函數能力,可以進行繪制散點圖,下面小編就具體的功能,給大家進行詳細的介紹下。 一、導入庫importmatplotlib.pyplotasplt 二.設置文字 plt.title("doublenumber",fontsize=24) plt.xlabel("number&...
摘要:本文作為學習過程中對一些常用知識點的整理,方便查找。所有繪圖操作僅對當前圖和當前坐標有效。表示把圖標分割成的網格。每個對象都是一個擁有自己坐標系統的繪圖區域。避免比例壓縮為橢圓數據可視化入門教程繪圖核心剖析如何調整子圖的大小 本文作為學習過程中對matplotlib一些常用知識點的整理,方便查找。 強烈推薦ipython無論你工作在什么項目上,IPython都是值得推薦的。利用ipyt...
摘要:簡介同一樣,也是進行數據可視化分析的重要第三方包。的五種繪圖風格有五種的風格,它們分別是。 作者:xiaoyu微信公眾號:Python數據科學知乎:python數據分析師 最近在做幾個項目的數據分析,每次用到seaborn進行可視化繪圖的時候總是忘記具體操作。雖然seaborn的官方網站已經詳細的介紹了使用方法,但是畢竟是英文,而且查找不是很方便。因此博主想從零開始將seaborn學...
此篇文章主要是闡述了如何運用python完成Sim哈希算法,文章內容依托于python的相關信息開展Sim哈希算法的詳細介紹一下,具有很強的參考意義,感興趣的朋友可以了解一下 1.為何需用Simhash? 傳統式相關性優化算法:語義相似度測算,一般采用線性空間實體模型(VSM),先向文字中文分詞,提取特征,依據特點創建文字空間向量,把文字中間相關性測算轉化成矩陣的特征值之間的距離測算,如歐...
閱讀 910·2023-01-14 11:38
閱讀 877·2023-01-14 11:04
閱讀 740·2023-01-14 10:48
閱讀 1981·2023-01-14 10:34
閱讀 942·2023-01-14 10:24
閱讀 818·2023-01-14 10:18
閱讀 498·2023-01-14 10:09
閱讀 572·2023-01-14 10:02