摘要:在全國(guó)知識(shí)圖譜與語(yǔ)義計(jì)算大會(huì)上,阿里巴巴集團(tuán)副總裁藏經(jīng)閣計(jì)劃阿里負(fù)責(zé)人墻輝玄難宣布藏經(jīng)閣計(jì)劃首次在阿里應(yīng)用落地,以及首次披露大規(guī)模知識(shí)構(gòu)建技術(shù)細(xì)節(jié),并從三個(gè)方面進(jìn)行了解讀。
2018年4月,阿里聯(lián)合清華大學(xué)、浙江大學(xué)、中科院自動(dòng)化所、中科院軟件所、蘇州大學(xué)等五家機(jī)構(gòu),聯(lián)合發(fā)布藏經(jīng)閣(知識(shí)引擎)研究計(jì)劃,同時(shí)還宣布打算用一年時(shí)間初步建成首個(gè)開(kāi)放的知識(shí)引擎服務(wù)平臺(tái),服務(wù)社會(huì)。
在全國(guó)知識(shí)圖譜與語(yǔ)義計(jì)算大會(huì)(CCKS)上,阿里巴巴集團(tuán)副總裁、藏經(jīng)閣計(jì)劃阿里負(fù)責(zé)人墻輝(玄難)宣布藏經(jīng)閣計(jì)劃首次在阿里應(yīng)用落地,以及首次披露大規(guī)模知識(shí)構(gòu)建技術(shù)細(xì)節(jié),并從三個(gè)方面進(jìn)行了解讀。
阿里巴巴集團(tuán)副總裁墻輝(玄難)
AI應(yīng)用背后的海量知識(shí)
伴隨著過(guò)去近19年的發(fā)展,阿里生態(tài)下消費(fèi)者、賣家、品牌商、運(yùn)營(yíng)等各種角色參與其中,每天都產(chǎn)生著海量的數(shù)據(jù)。
以商品相關(guān)的數(shù)據(jù)為例,阿里有近百億級(jí)別的實(shí)體,例如品牌、產(chǎn)品、條碼等,實(shí)體之間又有百億級(jí)別的關(guān)系邊。以百科數(shù)據(jù)為例,阿里有近千萬(wàn)級(jí)別的實(shí)體,例如人物、地點(diǎn)、公司等,實(shí)體之間有十億級(jí)別的關(guān)系邊。
這些數(shù)據(jù)來(lái)源非常廣泛,有來(lái)自國(guó)家的數(shù)據(jù),例如GS1編碼中心的條碼數(shù)據(jù),有阿里電商生態(tài)的數(shù)據(jù),例如線上如淘寶、天貓、盒馬,有不同業(yè)務(wù)形態(tài)的數(shù)據(jù),例如高德、UC等。
但對(duì)于阿里來(lái)說(shuō),這些寶貴的資產(chǎn)要求數(shù)據(jù)具備很高的完整度和確定性,多源數(shù)據(jù)要把冗余度降低,數(shù)據(jù)無(wú)沖突,并彼此鏈接。最終目的是把數(shù)據(jù)變成知識(shí),能夠支撐著上層的AI應(yīng)用,主要是三個(gè)方向:業(yè)務(wù)中臺(tái)商業(yè)能力的智能化升級(jí)、搜索推薦、智能交互。
除了這些事實(shí)類的知識(shí)之外,阿里還有大量的形式化知識(shí)。
形式化知識(shí)對(duì)于垂直知識(shí)圖譜很重要,構(gòu)建知識(shí)圖譜和知識(shí)圖譜服務(wù)都要用到這些知識(shí)。例如商品知識(shí)圖譜生成標(biāo)簽的畫像知識(shí),商品分類的場(chǎng)景知識(shí),生成關(guān)系邊的鏈接知識(shí):判斷商品-產(chǎn)品的關(guān)系,生成屬性值的知識(shí)。還有大量的業(yè)務(wù)知識(shí),例如管控業(yè)務(wù)和跨市場(chǎng)商品體系的聯(lián)通,幫賣家把國(guó)內(nèi)商品自動(dòng)發(fā)布到國(guó)外。
海量的數(shù)據(jù)和知識(shí),使我們?cè)诒姸囝I(lǐng)域可以建立完善的知識(shí)引擎,但同時(shí)也面臨很多挑戰(zhàn):
? 阿里業(yè)務(wù)涉及很多垂直領(lǐng)域,如何快速搭建各個(gè)領(lǐng)域的知識(shí)圖譜?
? 如何把各個(gè)領(lǐng)域的知識(shí)圖譜快速聯(lián)通?
? 如何管理海量的知識(shí)(事實(shí)類知識(shí)和形式化知識(shí)),如何更新這些龐大的知識(shí)圖譜?
? 如何面向搜索推薦、智能交互、商業(yè)能力智能化等多種應(yīng)用做統(tǒng)一的知識(shí)表示?
? 最終如何實(shí)現(xiàn)認(rèn)知與感知的結(jié)合,實(shí)現(xiàn)類腦的推理能力?
首次披露大規(guī)模知識(shí)構(gòu)建技術(shù)細(xì)節(jié)
面對(duì)這些挑戰(zhàn),我們?cè)诮衲?月,聯(lián)合清華大學(xué)、浙江大學(xué)、中科院自動(dòng)化所、軟件所、蘇州大學(xué)等五家機(jī)構(gòu),聯(lián)合發(fā)布藏經(jīng)閣(知識(shí)引擎)研究計(jì)劃。
整個(gè)計(jì)劃依賴阿里強(qiáng)大的計(jì)算能力(例如Igraph圖數(shù)據(jù)庫(kù)),和先進(jìn)的機(jī)器學(xué)習(xí)算法(例如PAI平臺(tái)),把知識(shí)引擎分為五個(gè)模塊:包括知識(shí)建模、知識(shí)獲取、知識(shí)融合、知識(shí)推理計(jì)算和知識(shí)賦能。
這五個(gè)模塊可以提供從數(shù)據(jù)、信息、知識(shí)到知識(shí)服務(wù)一整套技術(shù)平臺(tái)化服務(wù),同時(shí),特定領(lǐng)域知識(shí)圖譜可插拔,特定領(lǐng)域知識(shí)圖譜加載后,可以提供特定領(lǐng)域的知識(shí)服務(wù)。
如今,知識(shí)引擎這五大技術(shù)模塊技術(shù)研究有重要進(jìn)展。
知識(shí)融合&知識(shí)獲取算法大規(guī)模擴(kuò)展
知識(shí)引擎提供通用的服務(wù)就會(huì)面臨很多領(lǐng)域的知識(shí)圖譜的構(gòu)建和不同的業(yè)務(wù)。知識(shí)融合&知識(shí)獲取算法要具備良好的擴(kuò)展性。良好的擴(kuò)展性需要快速獲取訓(xùn)練數(shù)據(jù),所以需要引入眾包。
但是,眾包數(shù)據(jù)質(zhì)量參差不齊。不同的標(biāo)注者把iPhoneX和蘋果iPhone X標(biāo)成產(chǎn)品詞,這種不一致樣本會(huì)成為訓(xùn)練的噪音。
我們通過(guò)對(duì)抗學(xué)習(xí),對(duì)抗學(xué)習(xí)的優(yōu)化目標(biāo)是分類器分不標(biāo)注者。從而隱層網(wǎng)絡(luò)能學(xué)習(xí)出標(biāo)注者之間的共性特征,然后把這個(gè)共性特征拼接到識(shí)別模型中。從而提高識(shí)別的精度。
提高知識(shí)獲取模塊實(shí)體關(guān)系抽取的精度
文本的句法信息對(duì)實(shí)體關(guān)系的識(shí)別非常重要。例如A和B創(chuàng)建了公司C。我們挖掘出公司C的創(chuàng)始人是A。通過(guò)A和B的并列關(guān)系的句法信息我們就可以知道公司C的創(chuàng)始人還有B。 所以我們?cè)O(shè)計(jì)了基于樹(shù)結(jié)構(gòu)來(lái)表示一個(gè)實(shí)體,從而能夠把句法的層次信息表示進(jìn)深度學(xué)習(xí)網(wǎng)絡(luò)。
邏輯推理與深度學(xué)習(xí)結(jié)合的推理框架
這個(gè)推理引擎,通過(guò)一階邏輯霍恩子句能夠表示我們知識(shí)圖譜中的百萬(wàn)級(jí)的形式化知識(shí),使得這些知識(shí)可沉淀、可復(fù)用、可執(zhí)行。形式化知識(shí)實(shí)時(shí)執(zhí)行可以補(bǔ)全知識(shí)圖譜的屬性值,補(bǔ)全實(shí)體關(guān)系,生成畫像標(biāo)簽,知識(shí)放大支持查詢。
我們的創(chuàng)新點(diǎn)在于:整個(gè)推理引擎支持確定性推理,例如基于形式化知識(shí)的推理和基于深度學(xué)習(xí)推理,例如基于深度學(xué)習(xí)的關(guān)系補(bǔ)全。同時(shí)推理引擎支持算法、詞庫(kù)、垂直知識(shí)圖譜的可插拔,例如查找產(chǎn)地為中國(guó)的食品:用到詞林的信息,產(chǎn)地和原產(chǎn)地是同義詞;用到地理知識(shí)圖譜,天津?qū)儆谥袊?guó);用到算法模塊-同款商品算法,這樣找到的商品量會(huì)增加百倍。
藏經(jīng)閣計(jì)劃首次應(yīng)用落地
藏經(jīng)閣計(jì)劃涉及商品知識(shí)圖譜、旅游知識(shí)圖譜、客服體驗(yàn)知識(shí)圖譜、安全知識(shí)圖譜,如今,該計(jì)劃首次在安全知識(shí)圖譜和旅游知識(shí)圖譜應(yīng)用落地。
我們用知識(shí)引擎為城市大腦提供服務(wù),安全知識(shí)圖譜全要素搜索上線,能夠讓你的城市更安全,讓每個(gè)人在一個(gè)城市里面過(guò)的更開(kāi)心。
旅游業(yè)務(wù)是一個(gè)知識(shí)密集型的業(yè)務(wù),消費(fèi)者要對(duì)一個(gè)旅游目的地的知識(shí)做到快速獲取和使用。知識(shí)引擎提高旅游景點(diǎn)信息質(zhì)量、自動(dòng)把游記攻略等內(nèi)容結(jié)構(gòu)化,和旅游知識(shí)的聯(lián)通,極大提高用戶的旅游體驗(yàn)。
我們希望一年內(nèi)基于這些知識(shí)圖譜沉淀通用的知識(shí)引擎服務(wù)包括:1)本體半自動(dòng)化構(gòu)建算法及管理工具;文本自動(dòng)結(jié)構(gòu)化算法;多源知識(shí)庫(kù)融合算法與工具;基于形式化知識(shí)的推理及工具; 2)自然語(yǔ)言、邏輯語(yǔ)言、數(shù)據(jù)庫(kù)語(yǔ)言查詢服務(wù)。
各類垂直領(lǐng)域知識(shí)圖譜,提煉和發(fā)現(xiàn)領(lǐng)域知識(shí),為上層業(yè)務(wù)提供知識(shí)服務(wù),實(shí)現(xiàn)商業(yè)創(chuàng)新,最終使各個(gè)垂直知識(shí)圖譜關(guān)聯(lián)互通,建成全領(lǐng)域知識(shí)圖譜,為社會(huì)服務(wù)。
本文作者:阿里妹
閱讀原文
本文來(lái)自云棲社區(qū)合作伙伴“阿里技術(shù)”,如需轉(zhuǎn)載請(qǐng)聯(lián)系原作者。
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://specialneedsforspecialkids.com/yun/11401.html
摘要:月日,杭州云棲大會(huì)生態(tài)峰會(huì)上,阿里云宣布云合再次升級(jí),智能首次被引入全球云計(jì)算生態(tài)。據(jù)云市場(chǎng)事業(yè)部總經(jīng)理朱以軍介紹,阿里云全球智能生態(tài)基礎(chǔ)網(wǎng)絡(luò)已經(jīng)構(gòu)建。年前,阿里云發(fā)布云合計(jì)劃,建設(shè)生態(tài)體系。10月12日,2017杭州·云棲大會(huì)生態(tài)峰會(huì)上,阿里云宣布云合再次升級(jí),智能首次被引入全球云計(jì)算生態(tài)。大航海時(shí)代,船只承載著冒險(xiǎn)者,首次實(shí)現(xiàn)了全球的交易交流;今天,國(guó)際化的阿里云生態(tài)也希望匯聚海內(nèi)外合作...
摘要:近日,不斷有外媒爆料,谷歌正在秘密尋求與騰訊在云服務(wù)業(yè)務(wù)上的合作。今年月份發(fā)布的中國(guó)公有云服務(wù)市場(chǎng)半年度跟蹤報(bào)告顯示,阿里云業(yè)務(wù)在中國(guó)云計(jì)算市場(chǎng)上占據(jù)了的份額,而騰訊云只有。傳聞傳久了,或許就變成真的了。近日,不斷有外媒爆料,谷歌正在秘密尋求與騰訊在云服務(wù)業(yè)務(wù)上的合作。The Information就直接指出,谷歌并不打算直接在中國(guó)推出谷歌云服務(wù),而是希望借道騰訊,讓谷歌云端服務(wù)的企業(yè)用戶在...
閱讀 1634·2023-04-26 02:11
閱讀 2978·2023-04-25 16:18
閱讀 3710·2021-09-06 15:00
閱讀 2630·2019-08-30 15:55
閱讀 1934·2019-08-30 13:20
閱讀 2051·2019-08-26 18:36
閱讀 3121·2019-08-26 11:40
閱讀 2537·2019-08-26 10:11