摘要:項(xiàng)目代碼下載地址基于共現(xiàn)提取釜山行人物關(guān)系更多經(jīng)典項(xiàng)目全部項(xiàng)目
項(xiàng)目簡(jiǎn)介:本項(xiàng)目將帶大家使用 Python 提取《釜山行》人物關(guān)系,對(duì)于給定的劇本文本,通過分析文本中人物的共現(xiàn)關(guān)系,提取整個(gè)文本表示的人物關(guān)系,并將人物關(guān)系可視化表示。本項(xiàng)目教程由Forec發(fā)布在實(shí)驗(yàn)樓。
一、項(xiàng)目介紹 1. 內(nèi)容簡(jiǎn)介《釜山行》是一部喪尸災(zāi)難片,其人物少、關(guān)系簡(jiǎn)單,非常適合我們學(xué)習(xí)文本處理。這個(gè)項(xiàng)目將介紹共現(xiàn)在關(guān)系中的提取,使用python編寫代碼實(shí)現(xiàn)對(duì)《釜山行》文本的人物關(guān)系提取,最終利用Gephi軟件對(duì)提取的人物關(guān)系繪制人物關(guān)系圖。
2. 知識(shí)點(diǎn)本項(xiàng)目完成過程中將學(xué)習(xí):
共現(xiàn)網(wǎng)絡(luò)的基本原理
Python代碼對(duì)《釜山行》中人物關(guān)系提取的具體實(shí)現(xiàn)
jieba庫(kù)的基本使用
Gephi軟件的基本使用
二、項(xiàng)目原理及效果圖實(shí)驗(yàn)基于簡(jiǎn)單共現(xiàn)關(guān)系,編寫 Python 代碼從純文本中提取出人物關(guān)系網(wǎng)絡(luò),并用Gephi 將生成的網(wǎng)絡(luò)可視化。下面介紹共現(xiàn)網(wǎng)絡(luò)的基本原理。(共現(xiàn)網(wǎng)絡(luò)英文介紹)
實(shí)體間的共現(xiàn)是一種基于統(tǒng)計(jì)的信息提取。關(guān)系緊密的人物往往會(huì)在文本中多段內(nèi)同時(shí)出現(xiàn),可以通過識(shí)別文本中已確定的實(shí)體(人名),計(jì)算不同實(shí)體共同出現(xiàn)的次數(shù)和比率。當(dāng)比率大于某一閾值,我們認(rèn)為兩個(gè)實(shí)體間存在某種聯(lián)系。這種聯(lián)系可以具體細(xì)化,但提取過程也更加復(fù)雜。因此在此課程只介紹最基礎(chǔ)的共現(xiàn)網(wǎng)絡(luò)。
項(xiàng)目通過Python提取《釜山行》人物關(guān)系網(wǎng)絡(luò),通過gephi這個(gè)軟件做可視化處理后,最終效果如下圖所示:
三、實(shí)驗(yàn)過程本項(xiàng)目的完整代碼、詳細(xì)步驟及demo,可以在實(shí)驗(yàn)樓查看并在線完成:Python基于共現(xiàn)提取《釜山行》人物關(guān)系
開發(fā)準(zhǔn)備:打開Xfce終端,進(jìn)入 Code 目錄,創(chuàng)建 work 文件夾, 將其作為課程的工作目錄。下載并安裝 gephi 。
$ mkdir work && cd work $ mkdir gephi && cd gephi $ wget http://labfile.oss.aliyuncs.com/courses/677/gephi-0.9.1-linux.tar.gz #下載 $ tar -zxvf gephi-0.9.1-linux.tar.gz #解壓
下載《釜山行》的中文劇本。
$ wget http://labfile.oss.aliyuncs.com/courses/677/busan.txt
安裝jieba中文分詞。
$ sudo pip2 install jieba實(shí)驗(yàn)步驟: 1.觀察文本結(jié)構(gòu)、準(zhǔn)備詞典
可以通過各類百科獲取《釜山行》的主要人物,你可以在百度百科中找到他們的介紹,并將人名寫入一個(gè)字典中。
2.確定需要的變量 3.文本中實(shí)體識(shí)別在實(shí)驗(yàn)樓中的顯示結(jié)果如下圖:
4.根據(jù)識(shí)別結(jié)果構(gòu)建網(wǎng)絡(luò) 5.過濾冗余邊并輸出結(jié)果 6.可視化網(wǎng)絡(luò)對(duì)《釜山行》劇本中的人物關(guān)系數(shù)據(jù)進(jìn)行處理后,可以使用gephi這個(gè)軟件來(lái)將人物關(guān)系可視化,以便展示的更直觀。(Gephi是一款開源免費(fèi)跨平臺(tái)基于JVM的復(fù)雜網(wǎng)絡(luò)分析軟件, 其主要用于各種網(wǎng)絡(luò)和復(fù)雜系統(tǒng),動(dòng)態(tài)和分層圖的交互可視化與探測(cè)開源工具。)
使用 gephi 導(dǎo)入生成的網(wǎng)絡(luò),并生成簡(jiǎn)單的可視化布局。可以在最上方的數(shù)據(jù)資料選項(xiàng)卡中查看圖中所有的邊和節(jié)點(diǎn),對(duì)于分詞不準(zhǔn)確導(dǎo)致的噪音,可以手動(dòng)刪除。
通過對(duì)節(jié)點(diǎn)染色、放大,調(diào)整成合適布局后如下圖所示。節(jié)點(diǎn)染色根據(jù)模塊化計(jì)算結(jié)果不定,但染色效果大致相同。
預(yù)覽后右側(cè)顯示最終的人物關(guān)系圖。
項(xiàng)目代碼下載地址:Python基于共現(xiàn)提取《釜山行》人物關(guān)系
更多Python經(jīng)典項(xiàng)目:Python全部項(xiàng)目
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://specialneedsforspecialkids.com/yun/38213.html
摘要:是重量級(jí)選手中最有代表性的一位。是一個(gè)開放源代碼的應(yīng)用框架,由寫成。使用用戶登陸后臺(tái)管理時(shí),將只有增加組的選項(xiàng)。人物屬性姓名,性別,簡(jiǎn)介,所屬書籍。 Django Python下有許多款不同的 Web 框架。Django是重量級(jí)選手中最有代表性的一位。許多成功的網(wǎng)站和APP都基于Django。 Django是一個(gè)開放源代碼的Web應(yīng)用框架,由Python寫成。 Django基礎(chǔ) 版本:...
摘要:損失函數(shù)此次競(jìng)賽我們采用的基線損失函數(shù)為,該損失函數(shù)在訓(xùn)練過程中模擬課程學(xué)習(xí)的思想,按照樣本從易到難的順序進(jìn)行訓(xùn)練。 1. 引言10月11-17日,萬(wàn)眾期待的國(guó)際計(jì)算機(jī)視覺大會(huì) ICCV 2021 (International Conference on Computer Vision) 在線上如期舉行,受到全...
閱讀 2373·2021-11-24 10:26
閱讀 2565·2021-11-16 11:44
閱讀 1695·2021-09-22 15:26
閱讀 3565·2021-09-10 11:11
閱讀 3178·2021-09-07 10:25
閱讀 3615·2021-09-01 10:41
閱讀 1002·2021-08-27 13:11
閱讀 3498·2021-08-16 11:02