摘要:本質上知識圖譜旨在描述真實世界中存在的各種實體或概念及其關系其構成一張巨大的語義網絡圖,節點表示實體或概念,邊則由屬性或關系構成。圖知識圖譜示例知識圖譜的架構知識圖譜的架構包括自身的邏輯結構以及構建知識圖譜所采用的技術體系架構。
引言
隨著互聯網的發展,網絡數據內容呈現爆炸式增長的態勢。由于互聯網內容的大規模、異質多元、組織結構松散的特點,給人們有效獲取信息和知識提出了挑戰。知識圖譜(Knowledge Graph) 以其強大的語義處理能力和開放組織能力,為互聯網時代的知識化組織和智能應用奠定了基礎。最近,大規模知識圖譜庫的研究和應用在學術界和工業界引起了足夠的注意力[1-5]。一個知識圖譜旨在描述現實世界中存在的實體以及實體之間的關系。知識圖譜于2012年5月17日由[Google]正式提出[6],其初衷是為了提高搜索引擎的能力,改善用戶的搜索質量以及搜索體驗。隨著人工智能的技術發展和應用,知識圖譜作為關鍵技術之一,已被廣泛應用于智能搜索、智能問答、個性化推薦、內容分發等領域。
知識圖譜的定義
在維基百科的官方詞條中:知識圖譜是Google用于增強其搜索引擎功能的知識庫。本質上, 知識圖譜旨在描述真實世界中存在的各種實體或概念及其關系,其構成一張巨大的語義網絡圖,節點表示實體或概念,邊則由屬性或關系構成?,F在的知識圖譜已被用來泛指各種大規模的知識庫。 在具體介紹知識圖譜的定義,我們先來看下知識類型的定義:
知識圖譜中包含三種節點:
實體: 指的是具有可區別性且獨立存在的某種事物。如某一個人、某一個城市、某一種植物等、某一種商品等等。世界萬物有具體事物組成,此指實體。如圖1的“中國”、“美國”、“日本”等。,實體是知識圖譜中的最基本元素,不同的實體間存在不同的關系。
語義類(概念):具有同種特性的實體構成的集合,如國家、民族、書籍、電腦等。 概念主要指集合、類別、對象類型、事物的種類,例如人物、地理等。
內容: 通常作為實體和語義類的名字、描述、解釋等,可以由文本、圖像、音視頻等來表達。
屬性(值): 從一個實體指向它的屬性值。不同的屬性類型對應于不同類型屬性的邊。屬性值主要指對象指定屬性的值。如圖1所示的“面積”、“人口”、“首都”是幾種不同的屬性。屬性值主要指對象指定屬性的值,例如960萬平方公里等。
關系: 形式化為一個函數,它把kk個點映射到一個布爾值。在知識圖譜上,關系則是一個把kk個圖節點(實體、語義類、屬性值)映射到布爾值的函數。
圖1 知識圖譜示例
知識圖譜的架構
知識圖譜的架構包括自身的邏輯結構以及構建知識圖譜所采用的技術(體系)架構。
1) 知識圖譜的邏輯結構
知識圖譜在邏輯上可分為模式層與數據層兩個層次,數據層主要是由一系列的事實組成,而知識將以事實為單位進行存儲。如果用(實體1,關系,實體2)、(實體、屬性,屬性值)這樣的三元組來表達事實,可選擇圖數據庫作為存儲介質,例如開源的Neo4j[7]、Twitter的FlockDB[8]、sones的GraphDB[9]等。模式層構建在數據層之上,是知識圖譜的核心,通常采用本體庫來管理知識圖譜的模式層。本體是結構化知識庫的概念模板,通過本體庫而形成的知識庫不僅層次結構較強,并且冗余程度較小。
2) 知識圖譜的體系架構
圖2 知識圖譜的技術架構
知識圖譜的體系架構是其指構建模式結構,如圖2所示。其中虛線框內的部分為知識圖譜的構建過程,也包含知識圖譜的更新過程。知識圖譜構建從最原始的數據(包括結構化、半結構化、非結構化數據)出發,采用一系列自動或者半自動的技術手段,從原始數據庫和第三方數據庫中提取知識事實,并將其存入知識庫的數據層和模式層,這一過程包含:信息抽取、知識表示、知識融合、知識推理四個過程,每一次更新迭代均包含這四個階段。知識圖譜主要有自頂向下(top-down)與自底向上(bottom-up)兩種構建方式。自頂向下指的是先為知識圖譜定義好本體與數據模式,再將實體加入到知識庫。該構建方式需要利用一些現有的結構化知識庫作為其基礎知識庫,例如Freebase項目就是采用這種方式,它的絕大部分數據是從維基百科中得到的。自底向上指的是從一些開放鏈接數據中提取出實體,選擇其中置信度較高的加入到知識庫,再構建頂層的本體模式[10]。目前,大多數知識圖譜都采用自底向上的方式進行構建,其中最典型就是Google的Knowledge Vault[11]和微軟的Satori知識庫。現在也符合互聯網數據內容知識產生的特點。
代表性知識圖譜庫
根據覆蓋范圍而言,知識圖譜也可分為開放域通用知識圖譜和垂直行業知識圖譜[12]。開放通用知識圖譜注重廣度,強調融合更多的實體,較垂直行業知識圖譜而言,其準確度不夠高,并且受概念范圍的影響,很難借助本體庫對公理、規則以及約束條件的支持能力規范其實體、屬性、實體間的關系等。通用知識圖譜主要應用于智能搜索等領域。行業知識圖譜通常需要依靠特定行業的數據來構建,具有特定的行業意義。行業知識圖譜中,實體的屬性與數據模式往往比較豐富,需要考慮到不同的業務場景與使用人員。下圖展示了現在知名度較高的大規模知識庫。
圖3 ?代表性知識圖譜庫概覽
知識圖譜構建的關鍵技術
大規模知識庫的構建與應用需要多種技術的支持。通過知識提取技術,可以從一些公開的半結構化、非結構化和第三方結構化數據庫的數據中提取出實體、關系、屬性等知識要素。知識表示則通過一定有效手段對知識要素表示,便于進一步處理使用。然后通過知識融合,可消除實體、關系、屬性等指稱項與事實對象之間的歧義,形成高質量的知識庫。知識推理則是在已有的知識庫基礎上進一步挖掘隱含的知識,從而豐富、擴展知識庫。分布式的知識表示形成的綜合向量對知識庫的構建、推理、融合以及應用均具有重要的意義。接下來,本文將以知識抽取、知識表示、知識融合以及知識推理技術為重點,選取代表性的方法,說明其中的相關研究進展和實用技術手段 。
1 知識提取
知識抽取主要是面向開放的鏈接數據,通常典型的輸入是自然語言文本或者多媒體內容文檔(圖像或者視頻)等。然后通過自動化或者半自動化的技術抽取出可用的知識單元,知識單元主要包括實體(概念的外延)、關系以及屬性3個知識要素,并以此為基礎,形成一系列高質量的事實表達,為上層模式層的構建奠定基礎。
1.1 實體抽取
實體抽取也稱為命名實體學習(named entity learning) 或命名實體識別 (named entity recognition),指的是從原始數據語料中自動識別出命名實體。由于實體是知識圖譜中的最基本元素,其抽取的完整性、準確率、召回率等將直接影響到知識圖譜構建的質量。因此,實體抽取是知識抽取中更為基礎與關鍵的一步。參照文獻[13],我們可以將實體抽取的方法分為4種:基于百科站點或垂直站點提取、基于規則與詞典的方法、基于統計機器學習的方法以及面向開放域的抽取方法?;诎倏普军c或垂直站點提取則是一種很常規基本的提取方法;基于規則的方法通常需要為目標實體編寫模板,然后在原始語料中進行匹配;基于統計機器學習的方法主要是通過機器學習的方法對原始語料進行訓練,然后再利用訓練好的模型去識別實體;面向開放域的抽取將是面向海量的Web語料[14]。
1) 基于百科或垂直站點提取
基于百科站點或垂直站點提取這種方法是從百科類站點(如維基百科、百度百科、互動百科等)的標題和鏈接中提取實體名。這種方法的優點是可以得到開放互聯網中最常見的實體名,其缺點是對于中低頻的覆蓋率低。與一般性通用的網站相比,垂直類站點的實體提取可以獲取特定領域的實體。例如從豆瓣各頻道(音樂、讀書、電影等)獲取各種實體列表。這種方法主要是基于爬取技術來實現和獲取?;诎倏祁愓军c或垂直站點是一種最常規和基本的方法。
2) 基于規則與詞典的實體提取方法
早期的實體抽取是在限定文本領域、限定語義單元類型的條件下進行的,主要采用的是基于規則與詞典的方法,例如使用已定義的規則,抽取出文本中的人名、地名、組織機構名、特定時間等實體[15]。文獻[16]首次實現了一套能夠抽取公司名稱的實體抽取系統,其中主要用到了啟發式算法與規則模板相結合的方法。然而,基于規則模板的方法不僅需要依靠大量的專家來編寫規則或模板,覆蓋的領域范圍有限,而且很難適應數據變化的新需求。
3) 基于統計機器學習的實體抽取方法
鑒于基于規則與詞典實體的局限性,為具更有可擴展性,相關研究人員將機器學習中的監督學習算法用于命名實體的抽取問題上。例如文獻[17]利用KNN算法與條件隨機場模型,實現了對Twitter文本數據中實體的識別。單純的監督學習算法在性能上不僅受到訓練集合的限制,并且算法的準確率與召回率都不夠理想。相關研究者認識到監督學習算法的制約性后,嘗試將監督學習算法與規則相互結合,取得了一定的成果。例如文獻[18]基于字典,使用較大熵算法在Medline論文摘要的GENIA數據集上進行了實體抽取實驗,實驗的準確率與召回率都在70%以上。近年來隨著深度學習的興起應用,基于深度學習的命名實體識別得到廣泛應用。在文獻[19],介紹了一種基于雙向LSTM深度神經網絡和條件隨機場的識別方法,在測試數據上取得的較好的表現結果。
圖4 ?基于BI-LSTM和CRF的架構
4) 面向開放域的實體抽取方法
針對如何從少量實體實例中自動發現具有區分力的模式,進而擴展到海量文本去給實體做分類與聚類的問題,文獻[20]提出了一種通過迭代方式擴展實體語料庫的解決方案,其基本思想是通過少量的實體實例建立特征模型,再通過該模型應用于新的數據集得到新的命名實體。文獻[21]提出了一種基于無監督學習的開放域聚類算法,其基本思想是基于已知實體的語義特征去搜索日志中識別出命名的實體,然后進行聚類。
1.2 語義類抽取
語義類抽取是指從文本中自動抽取信息來構造語義類并建立實體和語義類的關聯, 作為實體層面上的規整和抽象。以下介紹一種行之有效的語義類抽取方法,包含三個模塊:并列度相似計算、上下位關系提取以及語義類生成 [22]。
1) 并列相似度計算
?并列相似度計算其結果是詞和詞之間的相似性信息,例如三元組(蘋果,梨,s1)表示蘋果和梨的相似度是s1。兩個詞有較高的并列相似度的條件是它們具有并列關系(即同屬于一個語義類),并且有較大的關聯度。按照這樣的標準,北京和上海具有較高的并列相似度,而北京和汽車的并列相似度很低(因為它們不屬于同一個語義類)。對于海淀、朝陽、閔行三個市轄區來說,海淀和朝陽的并列相似度大于海淀和閔行的并列相似度(因為前兩者的關聯度更高)。?
當前主流的并列相似度計算方法有分布相似度法(distributional similarity) 和模式匹配法(pattern Matching)。分布相似度方法[23-24]基于哈里斯(Harris)的分布假設(distributional hypothesis)[25],即經常出現在類似的上下文環境中的兩個詞具有語義上的相似性。分布相似度方法的實現分三個步驟:第一步,定義上下文;第二步,把每個詞表示成一個特征向量,向量每一維代表一個不同的上下文,向量的值表示本詞相對于上下文的權重;第三步,計算兩個特征向量之間的相似度,將其作為它們所代表的詞之間的相似度。 模式匹配法的基本思路是把一些模式作用于源數據,得到一些詞和詞之間共同出現的信息,然后把這些信息聚集起來生成單詞之間的相似度。模式可以是手工定義的,也可以是根據一些種子數據而自動生成的。分布相似度法和模式匹配法都可以用來在數以百億計的句子中或者數以十億計的網頁中抽取詞的相似性信息。有關分布相似度法和模式匹配法所生成的相似度信息的質量比較參見文獻。
2) 上下位關系提取
該該模塊從文檔中抽取詞的上下位關系信息,生成(下義詞,上義詞)數據對,例如(狗,動物)、(悉尼,城市)。提取上下位關系最簡單的方法是解析百科類站點的分類信息(如維基百科的“分類”和百度百科的“開放分類”)。這種方法的主要缺點包括:并不是所有的分類詞條都代表上位詞,例如百度百科中“狗”的開放分類“養殖”就不是其上位詞;生成的關系圖中沒有權重信息,因此不能區分同一個實體所對應的不同上位詞的重要性;覆蓋率偏低,即很多上下位關系并沒有包含在百科站點的分類信息中。?
在英文數據上用Hearst 模式和IsA 模式進行模式匹配被認為是比較有效的上下位關系抽取方法。下面是這些模式的中文版本(其中NPC 表示上位詞,NP 表示下位詞):?
NPC { 包括| 包含| 有} {NP、}* [ 等| 等等]?
NPC { 如| 比如| 像| 象} {NP、}*?
{NP、}* [{ 以及| 和| 與} NP] 等 NPC?
{NP、}* { 以及| 和| 與} { 其它| 其他} NPC?
NP 是 { 一個| 一種| 一類} NPC?
此外,一些網頁表格中包含有上下位關系信息,例如在帶有表頭的表格中,表頭行的文本是其它行的上位詞。
3) 語義類生成
該模塊包括聚類和語義類標定兩個子模塊。聚類的結果決定了要生成哪些語義類以及每個語義類包含哪些實體,而語義類標定的任務是給一個語義類附加一個或者多個上位詞作為其成員的公共上位詞。此模塊依賴于并列相似性和上下位關系信息來進行聚類和標定。有些研究工作只根據上下位關系圖來生成語義類,但經驗表明并列相似性信息對于提高最終生成的語義類的精度和覆蓋率都至關重要。
1.3 屬性和屬性值抽取
屬性提取的任務是為每個本體語義類構造屬性列表(如城市的屬性包括面積、人口、所在國家、地理位置等),而屬性值提取則為一個語義類的實體附加屬性值。屬性和屬性值的抽取能夠形成完整的實體概念的知識圖譜維度。常見的屬性和屬性值抽取方法包括從百科類站點中提取,從垂直網站中進行包裝器歸納,從網頁表格中提取,以及利用手工定義或自動生成的模式從句子和查詢日志中提取。?
常見的語義類/ 實體的常見屬性/ 屬性值可以通過解析百科類站點中的半結構化信息(如維基百科的信息盒和百度百科的屬性表格)而獲得。盡管通過這種簡單手段能夠得到高質量的屬性,但同時需要采用其它方法來增加覆蓋率(即為語義類增加更多屬性以及為更多的實體添加屬性值)。
圖5 愛因斯坦信息頁
由于垂直網站(如電子產品網站、圖書網站、電影網站、音樂網站)包含有大量實體的屬性信息。例如上圖的網頁中包含了圖書的作者、出版社、出版時間、評分等信息。通過基于一定規則模板建立,便可以從垂直站點中生成包裝器(或稱為模版),并根據包裝器來提取屬性信息。從包裝器生成的自動化程度來看,這些方法可以分為手工法(即手工編寫包裝器)、監督方法、半監督法以及無監督法。考慮到需要從大量不同的網站中提取信息,并且網站模版可能會更新等因素,無監督包裝器歸納方法顯得更加重要和現實。無監督包裝器歸納的基本思路是利用對同一個網站下面多個網頁的超文本標簽樹的對比來生成模版。簡單來看,不同網頁的公共部分往往對應于模版或者屬性名,不同的部分則可能是屬性值,而同一個網頁中重復的標簽塊則預示著重復的記錄。?
屬性抽取的另一個信息源是網頁表格。表格的內容對于人來說一目了然,而對于機器而言,情況則要復雜得多。由于表格類型千差萬別,很多表格制作得不規則,加上機器缺乏人所具有的背景知識等原因,從網頁表格中提取高質量的屬性信息成為挑戰。?
上述三種方法的共同點是通過挖掘原始數據中的半結構化信息來獲取屬性和屬性值。與通過“閱讀”句子來進行信息抽取的方法相比,這些方法繞開了自然語言理解這樣一個“硬骨頭”而試圖達到以柔克剛的效果。在現階段,計算機知識庫中的大多數屬性值確實是通過上述方法獲得的。但現實情況是只有一部分的人類知識是以半結構化形式體現的,而更多的知識則隱藏在自然語言句子中,因此直接從句子中抽取信息成為進一步提高知識庫覆蓋率的關鍵。當前從句子和查詢日志中提取屬性和屬性值的基本手段是模式匹配和對自然語言的淺層處理。圖6 描繪了為語義類抽取屬性名的主框架(同樣的過程也適用于為實體抽取屬性值)。圖中虛線左邊的部分是輸入,它包括一些手工定義的模式和一個作為種子的(詞,屬性)列表。模式的例子參見表3,(詞,屬性)的例子如(北京,面積)。在只有語義類無關的模式作為輸入的情況下,整個方法是一個在句子中進行模式匹配而生成(語義類,屬性)關系圖的無監督的知識提取過程。此過程分兩個步驟,第一個步驟通過將輸入的模式作用到句子上而生成一些(詞,屬性)元組,這些數據元組在第二個步驟中根據語義類進行合并而生成(語義類,屬性)關系圖。在輸入中包含種子列表或者語義類相關模式的情況下,整個方法是一個半監督的自舉過程,分三個步驟:
模式生成:在句子中匹配種子列表中的詞和屬性從而生成模式。模式通常由詞和屬性的環境信息而生成。
模式匹配。
模式評價與選擇:通過生成的(語義類,屬性)關系圖對自動生成的模式的質量進行自動評價并選擇高分值的模式作為下一輪匹配的輸入。
1.3 關系抽取
關系抽取的目標是解決實體語義鏈接的問題。關系的基本信息包括參數類型、滿足此關系的元組模式等。例如關系BeCapitalOf(表示一個國家的首都)的基本信息如下:?
參數類型:(Capital, Country)?
模式:?
元組:(北京,中國);(華盛頓,美國);Capital 和 Country表示首都和國家兩個語義類。?
早期的關系抽取主要是通過人工構造語義規則以及模板的方法識別實體關系。隨后,實體間的關系模型逐漸替代了人工預定義的語法與規則。但是仍需要提前定義實體間的關系類型。 文獻[26]提出了面向開放域的信息抽取框架 (open information extraction,OIE),這是抽取模式上的一個巨大進步。但OIE方法在對實體的隱含關系抽取方面性能低下,因此部分研究者提出了基于馬爾可夫邏輯網、基于本體推理的深層隱含關系抽取方法[27]。
開放式實體關系抽取
開放式實體關系抽取可分為二元開放式關系抽取和n元開放式關系抽取。在二元開放式關系抽取中,早期的研究有KnowItAll[28]與TextRunner[27]系統,在準確率與召回率上表現一般。文獻[29]提出了一種基于Wikipedia的OIE方法WOE,經自監督學習得到抽取器,準確率較TextRunner有明顯的提高。針對WOE的缺點,文獻[30]提出了第二代OIE ReVerb系統,以動詞關系抽取為主。文獻[31]提出了第三代OIE系統OLLIE(open language learning for information extraction),嘗試彌補并擴展OIE的模型及相應的系統,抽取結果的準確度得到了增強。?
然而,基于語義角色標注的OIE分析顯示:英文語句中40%的實體關系是n元的[32],如處理不當,可能會影響整體抽取的完整性。文獻[33]提出了一種可抽取任意英文語句中n元實體關系的方法KPAKEN,彌補了ReVerb的不足。但是由于算法對語句深層語法特征的提取導致其效率顯著下降,并不適用于大規模開放域語料的情況。
基于聯合推理的實體關系抽取
聯合推理的關系抽取中的典型方法是馬爾可夫邏輯網MLN(Markov logic network)[34],它是一種將馬爾可夫網絡與一階邏輯相結合的統計關系學習框架,同時也是在OIE中融入推理的一種重要實體關系抽取模型。基于該模型,文獻[35]提出了一種無監督學習模型StatSnowball,不同于傳統的OIE,該方法可自動產生或選擇模板生成抽取器。在StatSnowball的基礎上,文獻[27,36]提出了一種實體識別與關系抽取相結合的模型EntSum,主要由擴展的CRF命名實體識別模塊與基于StatSnowball的關系抽取模塊組成,在保證準確率的同時也提高了召回率。文獻[27,37]提出了一種簡易的Markov邏輯TML(tractable Markov logic),TML將領域知識分解為若干部分,各部分主要來源于事物類的層次化結構,并依據此結構,將各大部分進一步分解為若干個子部分,以此類推。TML具有較強的表示能力,能夠較為簡潔地表示概念以及關系的本體結構。
2、知識表示
傳統的知識表示方法主要是以RDF(Resource Description Framework資源描述框架)的三元組SPO(subject,property,object)來符號性描述實體之間的關系。這種表示方法通用簡單,受到廣泛認可,但是其在計算效率、數據稀疏性等方面面臨諸多問題。近年來,以深度學習為代表的以深度學習為代表的表示學習技術取得了重要的進展,可以將實體的語義信息表示為稠密低維實值向量,進而在低維空間中高效計算實體、關系及其之間的復雜語義關聯,對知識庫的構建、推理、融合以及應用均具有重要的意義[38-40]。
2.1 代表模型
知識表示學習的代表模型有距離模型、單層神經網絡模型、雙線性模型、神經張量模型、矩陣分解模型、翻譯模型等。詳細可參見清華大學劉知遠的知識表示學習研究進展。相關實現也可參見 [39]。
1)距離模型
距離模型在文獻[41] 提出了知識庫中實體以及關系的結構化表示方法(structured embedding,SE),其基本思想是:首先將實體用向量進行表示,然后通過關系矩陣將實體投影到與實體關系對的向量空間中,最后通過計算投影向量之間的距離來判斷實體間已存在的關系的置信度。由于距離模型中的關系矩陣是兩個不同的矩陣,使得協同性較差。
2.2 復雜關系模型
知識庫中的實體關系類型也可分為1-to-1、1-to-N、N-to-1、N-to-N4種類型[47],而復雜關系主要指的是1-to-N、N-to-1、N-to-N的3種關系類型。由于TransE模型不能用在處理復雜關系上[39],一系列基于它的擴展模型紛紛被提出,下面將著重介紹其中的幾項代表性工作。
1)TransH模型
文獻[48]提出的TransH模型嘗試通過不同的形式表示不同關系中的實體結構,對于同一個實體而言,它在不同的關系下也扮演著不同的角色。模型首先通過關系向量與其正交的法向量選取某一個超平面F, 然后將頭實體向量和尾實體向量法向量的方向投影到F, 最后計算損失函數。TransH使不同的實體在不同的關系下擁有了不同的表示形式,但由于實體向量被投影到了關系的語義空間中,故它們具有相同的維度。
3)TransD模型
考慮到在知識庫的三元組中,頭實體和尾實體表示的含義、類型以及屬性可能有較大差異,之前的TransR模型使它們被同一個投影矩陣進行映射,在一定程度上就限制了模型的表達能力。除此之外,將實體映射到關系空間體現的是從實體到關系的語 義聯系,而TransR模型中提出的投影矩陣僅考慮了不同的關系類型,而忽視了實體與關系之間的交互。因此,文獻[50]提出了TransD模型,模型分別定義了頭實體與尾實體在關系空間上的投影矩陣。
4)TransG模型
文獻[51]提出的TransG模型認為一種關系可能會對應多種語義,而每一種語義都可以用一個高斯分布表示。TransG模型考慮到了關系r 的不同語義,使用高斯混合模型來描述知識庫中每個三元組(h,r,t)頭實體與尾實體之間的關系,具有較高的實體區分度。
5)KG2E模型
考慮到知識庫中的實體以及關系的不確定性,文獻[52]提出了KG2E模型,其中同樣是用高斯分布來刻畫實體與關系。模型使用高斯分布的均值表示實體或關系在語義空間中的中心位置,協方差則表示實體或關系的不確定度。?
3/知識融合
通過知識提取,實現了從非結構化和半結構化數據中獲取實體、關系以及實體屬性信息的目標。但是由于知識來源廣泛,存在知識質量良莠不齊、來自不同數據源的知識重復、層次結構缺失等問題,所以必須要進行知識的融合。知識融合是高層次的知識組織[53],使來自不同知識源的知識在同一框架規范下進行異構數據整合、消歧、加工、推理驗證、更新等步驟[54],達到數據、信息、方法、經驗以及人的思想的融合,形成高質量的知識庫。
3.1 實體對齊
實體對齊 (entity alignment) 也稱為實體匹配 (entity matching)或實體解析(entity resolution)或者實體鏈接(entity linking),主要是用于消除異構數據中實體沖突、指向不明等不一致性問題,可以從頂層創建一個大規模的統一知識庫,從而幫助機器理解多源異質的數據,形成高質量的知識。
在大數據的環境下,受知識庫規模的影響,在進行知識庫實體對齊時,主要會面臨以下3個方面的挑戰[55]:1) 計算復雜度。匹配算法的計算復雜度會隨知識庫的規模呈二次增長,難以接受;2) 數據質量。由于不同知識庫的構建目的與方式有所不同,可能存在知識質量良莠不齊、相似重復數據、孤立數據、數據時間粒度不一致等問題[56];3) 先驗訓練數據。在大規模知識庫中想要獲得這種先驗數據卻非常困難。通常情況下,需要研究者手工構造先驗訓練數據。
基于上述,知識庫實體對齊的主要流程將包括[55]:1) 將待對齊數據進行分區索引,以降低計算的復雜度;2) 利用相似度函數或相似性算法查找匹配實例;3) 使用實體對齊算法進行實例融合;4) 將步驟2)與步驟3)的結果結合起來,形成最終的對齊結果。對齊算法可分為成對實體對齊與集體實體對齊兩大類,而集體實體對齊又可分為局部集體實體對齊與全局集體實體對齊。
1)成對實體對齊方法
① 基于傳統概率模型的實體對齊方法
基于傳統概率模型的實體對齊方法主要就是考慮兩個實體各自屬性的相似性,而并不考慮實體間的關系。文獻[57]將基于屬性相似度評分來判斷實體是否匹配的問題轉化為一個分類問題,建立了該問題的概率模型,缺點是沒有體現重要屬性對于實體相似度的影響。文獻[58]基于概率實體鏈接模型,為每個匹配的屬性對分配了不同的權重,匹配準確度有所提高。文獻[59]還結合貝葉斯網絡對屬性的相關性進行建模,并使用較大似然估計方法對模型中的參數進行估計。
② 基于機器學習的實體對齊方法
基于機器學習的實體對齊方法主要是將實體對齊問題轉化為二分類問題。根據是否使用標注數據可分為有監督學習與無監督學習兩類,基于監督學習的實體對齊方法主要可分為成對實體對齊、基于聚類的對齊、主動學習。
通過屬性比較向量來判斷實體對匹配與否可稱為成對實體對齊。這類方法中的典型代表有決策樹 [60]、支持向量機[61]、集成學習[62]等。文獻[63]使用分類回歸樹、線性分析判別等方法完成了實體辨析。文獻[64]基于二階段實體鏈接分析模型,提出了一種新的SVM分類方法,匹配準確率遠高于TAILOR中的混合算法。
基于聚類的實體對齊算法,其主要思想是將相似的實體盡量聚集到一起,再進行實體對齊。文獻[65]提出了一種擴展性較強的自適應實體名稱匹配與聚類算法,可通過訓練樣本生成一個自適應的距離函數。文獻[66]采用類似的方法,在條件隨機場實體對齊模型中使用監督學習的方法訓練產生距離函數,然后調整權重,使特征函數與學習參數的積較大。
在主動學習中,可通過與人員的不斷交互來解決很難獲得足夠的訓練數據問題,文獻[67]構建的ALIAS系統可通過人機交互的方式完成實體鏈接與去重的任務。文獻[68]采用相似的方法構建了ActiveAtlas系統。
2)局部集體實體對齊方法
局部集體實體對齊方法為實體本身的屬性以及與它有關聯的實體的屬性分別設置不同的權重,并通過加權求和計算總體的相似度,還可使用向量空間模型以及余弦相似性來判別大規模知識庫中的實體的相似程度[69],算法為每個實體建立了名稱向量與虛擬文檔向量,名稱向量用于標識實體的屬性,虛擬文檔向量則用于表示實體的屬性值以及其鄰居節點的屬性值的加權和值[55]。為了評價向量中每個分量的重要性,算法主要使用TF-IDF為每個分量設置權重,并為分量向量建立倒排索引,最后選擇余弦相似性函數計算它們的相似程度[55]。該算法的召回率較高,執行速度快,但準確率不足。其根本原因在于沒有真正從語義方面進行考慮。
3)全局集體實體對齊方法
① 基于相似性傳播的集體實體對齊方法
基于相似性傳播的方法是一種典型的集體實體對齊方法,匹配的兩個實體與它們產生直接關聯的其他實體也會具有較高的相似性,而這種相似性又會影響關聯的其他實體[55]。
相似性傳播集體實體對齊方法最早來源于文獻[70-71]提出的集合關系聚類算法,該算法主要通過一種改進的層次凝聚算法迭代產生匹配對象。文獻[72]在以上算法的基礎上提出了適用于大規模知識庫實體對齊的算法SiGMa,該算法將實體對齊問題看成是一個全局匹配評分目標函數的優化問題進行建模,屬于二次分配問題,可通過貪婪優化算法求得其近似解。SiGMa方法[55]能夠綜合考慮實體對的屬性與關系,通過集體實體的領域,不斷迭代發現所有的匹配對。
② 基于概率模型的集體實體對齊方法基于概率模型的集體實體對齊方法主要采用統計關系學習進行計算與推理,常用的方法有LDA模型[73]、CRF模型[74]、Markov邏輯網[75]等。
文獻[73]將LDA模型應用于實體的解析過程中,通過其中的隱含變量獲取實體之間的關系。但在大規模的數據集上效果一般。文獻[74]提出了一種基于圖劃分技術的CRF實體辨析模型,該模型以觀察值為條件產生實體判別的決策,有利于處理屬性間具有依賴關系的數據。文獻[66]在CRF實體辨析模型的基礎上提出了一種基于條件隨機場模型的多關系的實體鏈接算法,引入了基于canopy的索引,提高了大規模知識庫環境下的集體實體對齊效率。文獻[75]提出了一種基于Markov邏輯網的實體解析方法。通過Markov邏輯網,可構建一個Markov網,將概率圖模型中的較大可能性計算問題轉化為典型的較大化加權可滿足性問題,但基于Markov網進行實體辨析時,需要定義一系列的等價謂詞公理,通過它們完成知識庫的集體實體對齊。
3.2 知識加工
通過實體對齊,可以得到一系列的基本事實表達或初步的本體雛形,然而事實并不等于知識,它只是知識的基本單位。要形成高質量的知識,還需要經過知識加工的過程,從層次上形成一個大規模的知識體系,統一對知識進行管理。知識加工主要包括本體構建與質量評估兩方面的內容。
1)本體構建
本體是同一領域內不同主體之間進行交流、連通的語義基礎[76],其主要呈現樹狀結構,相鄰的層次節點或概念之間具有嚴格的“IsA”關系,有利于進行約束、推理等,卻不利于表達概念的多樣性。本體在知識圖譜中的地位相當于知識庫的模具,通過本體庫而形成的知識庫不僅層次結構較強,并且冗余程度較小[77]。
歡迎加入本站公開興趣群商業智能與數據分析群
興趣范圍包括各種讓數據產生價值的辦法,實際應用案例分享與討論,分析工具,ETL工具,數據倉庫,數據挖掘工具,報表系統等全方位知識
QQ群:81035754
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/4644.html
摘要:知識圖譜開源庫或簡稱是一個用于構建語義和關聯數據應用程序的自由和開源的框架。垂直行業應用下面將以金融醫療電商行業為例,說明知識圖譜在上述行業中的典型應用。 知識圖譜構建的關鍵技術1 知識提取2 知識表示3 知識融合4 知識推理知識推理則是在已有的知識庫基礎上進一步挖掘隱含的知識,從而豐富、擴展知識庫。在推理的過程中,往往需要關聯規則的支持。由于實體、實體屬性以及關系的多樣性,人們很難窮舉所有...
摘要:四知識圖譜應用利用知識圖譜技術可以直接給出用戶想要的搜索結果,而不再是各類鏈接。智慧城市公安機關在偵查案件時,經??吹睫k案民警用圖譜梳理案件及人物關系。在電視劇人民的名義中,警方利用知識圖譜分析,可以很快看清山水集團背后的利益鏈條。 導讀:悟已往之不諫,知來者之可追。 ?小編整理了各種關于人...
摘要:確定新的包命名規則為了盡可能避免包的誤植域名現象,將不會再允許使用相似的包命名不過會進一步鼓勵開發者使用自己的命名空間來發布包。本文是對其幾十年來技術之路的回顧與展望,也是一代技術人的青春回憶。 showImg(https://segmentfault.com/img/remote/1460000012846628); 前端每周清單專注前端領域內容,以對外文資料的搜集為主,幫助開發者了...
閱讀 1130·2023-04-26 02:46
閱讀 632·2023-04-25 19:38
閱讀 644·2021-10-14 09:42
閱讀 1242·2021-09-08 09:36
閱讀 1359·2019-08-30 15:44
閱讀 1323·2019-08-29 17:23
閱讀 2243·2019-08-29 15:27
閱讀 807·2019-08-29 14:15