国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

敏捷AI | NLP技術(shù)在宜信業(yè)務(wù)中的實(shí)踐【智能聊天機(jī)器人篇】

jeffrey_up / 1054人閱讀

摘要:本篇為場(chǎng)景中的智能聊天機(jī)器人篇,敬請(qǐng)收看作者井玉欣。今天要介紹的是如何利用技術(shù)以及智能聊天機(jī)器人來(lái)解決組織內(nèi)部面臨的大量的每日業(yè)務(wù)咨詢問(wèn)題。圖對(duì)于現(xiàn)代企業(yè)來(lái)說(shuō),智能聊天機(jī)器人有著非常廣泛的業(yè)務(wù)需求。

寫在前面:在背景篇《敏捷AI | NLP技術(shù)在宜信業(yè)務(wù)中的實(shí)踐【背景篇】》中,我們大概了解了NLP技術(shù)的發(fā)展情況,接下來(lái),我們會(huì)向大家介紹NLP技術(shù)在宜信應(yīng)用的高級(jí)場(chǎng)景。本篇為場(chǎng)景中的智能聊天機(jī)器人篇,敬請(qǐng)收看~

作者:井玉欣。畢業(yè)于北京大學(xué)信息科學(xué)技術(shù)學(xué)院,獲博士學(xué)位,研究方向包括計(jì)算機(jī)軟件與理論、邏輯推理等,目前就職于宜信技術(shù)研發(fā)中心,從事人工智能、機(jī)器學(xué)習(xí)、自然語(yǔ)言處理以及知識(shí)工程等方面的研究。

##高級(jí)場(chǎng)景之智能聊天機(jī)器人

前文我們介紹了NLP技術(shù)、數(shù)據(jù)、服務(wù)上相關(guān)演化發(fā)展的過(guò)程,接下來(lái),我將結(jié)合兩個(gè)具體的實(shí)例來(lái)分享我們?cè)贜LP領(lǐng)域的一些實(shí)施經(jīng)驗(yàn)。今天要介紹的是:如何利用NLP技術(shù)以及智能聊天機(jī)器人來(lái)解決組織內(nèi)部面臨的大量的每日業(yè)務(wù)咨詢問(wèn)題。

圖1

對(duì)于現(xiàn)代企業(yè)來(lái)說(shuō),智能聊天機(jī)器人有著非常廣泛的業(yè)務(wù)需求。對(duì)外,我們有常見(jiàn)的客服機(jī)器人、智能投資顧問(wèn)等;對(duì)內(nèi),我們有業(yè)務(wù)支持機(jī)器人、運(yùn)維機(jī)器人以及個(gè)人助理等。

本實(shí)例是一個(gè)面向企業(yè)內(nèi)部的信貸業(yè)務(wù)咨詢機(jī)器人,為一個(gè)問(wèn)答類QA-BOT。它的業(yè)務(wù)背景是:目前宜信的普惠業(yè)務(wù)在全國(guó)范圍內(nèi)有著500+線下門店,包括600+位營(yíng)業(yè)部主管,3000+位業(yè)務(wù)專員以及20000+位一線銷售。

每天這些一線同事在業(yè)務(wù)工作中都會(huì)產(chǎn)生大量的業(yè)務(wù)咨詢問(wèn)題,以往這些問(wèn)題都是后臺(tái)支持同事人工在IM中進(jìn)行處理,工作非??菰?,處理成本高、效率低;無(wú)法對(duì)問(wèn)題進(jìn)行有效的統(tǒng)計(jì),不知道問(wèn)題提問(wèn)的頻次,導(dǎo)致無(wú)法針對(duì)性的進(jìn)行培訓(xùn)。長(zhǎng)此以往,不利于業(yè)務(wù)的發(fā)展,也不利于團(tuán)隊(duì)的發(fā)展。

為了解決這個(gè)困境,我們研發(fā)了一個(gè)基于QA的問(wèn)答機(jī)器人來(lái)支持這個(gè)工作,將人工的過(guò)程轉(zhuǎn)為自動(dòng)處理,從而實(shí)現(xiàn)一個(gè)全天候、7X24小時(shí)的全面支持機(jī)制。

對(duì)于問(wèn)答機(jī)器人來(lái)說(shuō),其任務(wù)的核心和本質(zhì)實(shí)際上就是基于檢索的問(wèn)答模型,我們給它半形式化地定義如下:

輸入一個(gè)用戶的問(wèn)題Qx,在已有的QA數(shù)據(jù)庫(kù)中,即(Q1,A1),(Q2,A2),…,(Qn,An)等QA問(wèn)答對(duì)中,找到這樣一組問(wèn)答對(duì)(Qk,Ak),使得函數(shù)F(R(Qx),R(Qk))的值最大,其中F為語(yǔ)義相似度函數(shù),R為文本表征函數(shù)。

上述定義就是說(shuō)我們希望在所有QA問(wèn)答對(duì)的問(wèn)題中找到與用戶提問(wèn)最為相似的那個(gè)問(wèn)題,它所對(duì)應(yīng)的答案便是最合適反饋給用戶的答案。

這其中的核心問(wèn)題是求文本語(yǔ)義相似度,也就是求兩個(gè)問(wèn)題文本之間的相似度。解決這個(gè)問(wèn)題有很多方法,例如我們可以直接構(gòu)建一個(gè)Dual LSTM的神經(jīng)網(wǎng)絡(luò),把用戶的query從一側(cè)進(jìn)行輸入,然后把知識(shí)庫(kù)中問(wèn)答對(duì)的question從另外一側(cè)輸入,通過(guò)RNN、CNN或者全鏈接的網(wǎng)絡(luò),在語(yǔ)料充足的情況下,就能夠訓(xùn)練出一個(gè)模型,輸出的概率值即為兩個(gè)輸入問(wèn)題的相似度,如圖2所示。

圖2

然而,大多數(shù)情況下我們都面臨樣本不夠充足的問(wèn)題,尤其是在快速迭代的研發(fā)環(huán)境下,我們通常無(wú)法搜集到足夠的語(yǔ)料。所以我們常把相似度問(wèn)題拆分為兩個(gè)子問(wèn)題,即短文本語(yǔ)義表征和語(yǔ)義距離計(jì)算。兩者間又以前者更重要一些,一旦我們即將處理的問(wèn)題有了一個(gè)合理的語(yǔ)意表征,我們就可以通過(guò)簡(jiǎn)單的余弦距離、全鏈接網(wǎng)絡(luò)等計(jì)算出兩個(gè)表征之間的語(yǔ)義距離或者說(shuō)語(yǔ)義相似度。

那我們?cè)鯓訙?zhǔn)確地表征短文本語(yǔ)義呢?

這也有很多方法,比如經(jīng)典的詞袋模型,還有一些無(wú)監(jiān)督的表示方法(詞向量加權(quán)、Doc2Vec、Skip-thought、Variational Auto-encoder)以及有監(jiān)督的表示方法(DSSM、遷移學(xué)習(xí))等。

但是我們要注意到之前所說(shuō)的限制條件,也就是只能基于小規(guī)模語(yǔ)料和目前有限的QA問(wèn)答對(duì),而且業(yè)務(wù)要求快速實(shí)施、快速迭代。于是在方案的早期實(shí)施階段,我們優(yōu)先選擇了“詞袋模型+同義詞擴(kuò)展+tf-idf 權(quán)重”的這個(gè)方法,利用我們之前積累的相關(guān)術(shù)語(yǔ)的同義詞、常用詞的同義詞,可以把一個(gè)問(wèn)題進(jìn)行基于同義詞的復(fù)述,從而探索出來(lái)很多不同的問(wèn)法,來(lái)提高用戶提問(wèn)在有限QA對(duì)數(shù)據(jù)庫(kù)中命中的幾率。通過(guò)上述方法構(gòu)建出短文本的表征向量之后,再利用一些語(yǔ)義相似度的計(jì)算方法,就可以得到兩個(gè)文本之間語(yǔ)義相似程度的分?jǐn)?shù)。

這種方法最大的好處就是快,我們可以利用小規(guī)模的語(yǔ)料,1-2周之內(nèi)在一個(gè)新領(lǐng)域上迅速上線一版效果表現(xiàn)非常不錯(cuò)的問(wèn)答機(jī)器人。

圖3

當(dāng)然這個(gè)方案肯定不是終點(diǎn),上述這個(gè)方案最重要的作用是迅速上線初版模型,利用這個(gè)模型我們就可以去收集用戶提出的真實(shí)問(wèn)題,滾動(dòng)、積累更多問(wèn)題數(shù)據(jù),不斷的補(bǔ)充進(jìn)語(yǔ)料庫(kù)和QA數(shù)據(jù)庫(kù),進(jìn)而為我們訓(xùn)練更復(fù)雜的模型提供基礎(chǔ)。而且隨著QA數(shù)據(jù)庫(kù)中的QA對(duì)越來(lái)越多,我們可以去回答更多類型的問(wèn)題。

在有了一定的語(yǔ)料基礎(chǔ)之后,我們構(gòu)建了一版更為復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型。這里我們采用了經(jīng)典論文“Universal Language Model Fine-tuning for Text Classification”(by J. Howard et al)中的思想,在通用語(yǔ)料上先訓(xùn)練出一個(gè)language model(語(yǔ)言模型),再在領(lǐng)域語(yǔ)料上對(duì)該模型進(jìn)行fine-tuning,最后將其遷移到最終的目標(biāo)任務(wù)上,此外論文還提供了一些調(diào)參、優(yōu)化的技巧。

圖4

按照這個(gè)思想實(shí)施項(xiàng)目:在Wiki語(yǔ)料上訓(xùn)練語(yǔ)言模型之后,又在領(lǐng)域語(yǔ)料上進(jìn)行了調(diào)優(yōu),然后遷移到相應(yīng)的相似度計(jì)算網(wǎng)絡(luò)上,最終得到了一個(gè)不錯(cuò)的測(cè)試效果。返回的答案列表中,正確答案排在首位的概率有88%,正確答案位于列表前三位范圍以內(nèi)的概率有94%,整體來(lái)看這個(gè)效果是不錯(cuò)的。

當(dāng)然對(duì)于問(wèn)答機(jī)器人來(lái)說(shuō),QQ相似度計(jì)算只是其中比較重要的一步,還有許多其他模型需要融合進(jìn)來(lái),協(xié)作提高問(wèn)答的準(zhǔn)確率。比如QA匹配模型,用來(lái)計(jì)算用戶問(wèn)題和知識(shí)庫(kù)中所有問(wèn)題對(duì)應(yīng)答案的匹配程度。不過(guò)有了前面QQ相似度的計(jì)算基礎(chǔ),我們完全可以用同樣的思路來(lái)構(gòu)建一個(gè)QA匹配模型,輸出QA匹配度值。最后將QQ相似度值和QA匹配度值進(jìn)行加權(quán)重排,得到最終的答案列表,這才是返回給用戶的答案。

此外還有一個(gè)擴(kuò)展方向,即對(duì)于用戶提問(wèn)未能命中QA數(shù)據(jù)情況的處理。QA數(shù)據(jù)庫(kù)是由人工提取或智能生成的QA問(wèn)答對(duì)構(gòu)成的,個(gè)數(shù)有限,因此對(duì)于用戶可能會(huì)提問(wèn)的各種各樣的問(wèn)題無(wú)法完全覆蓋掉。一個(gè)有效的能力擴(kuò)展方法就是開(kāi)拓QA機(jī)器人的檢索數(shù)據(jù)源(見(jiàn)圖5),將機(jī)器人檢索范圍擴(kuò)展到一些第三方API查詢接口,QA問(wèn)答對(duì)數(shù)據(jù)庫(kù),知識(shí)圖譜以及文檔等各個(gè)渠道的知識(shí),從中找到答案。

圖5

在我們的項(xiàng)目里,我們實(shí)施了“文檔檢索+關(guān)鍵信息提取”的保底方案,在問(wèn)答數(shù)據(jù)庫(kù)無(wú)法覆蓋所有問(wèn)題的情況下也盡可能為用戶提供答案。

當(dāng)然,我們還可以針對(duì)一些問(wèn)題,通過(guò)槽值提取、實(shí)體關(guān)系識(shí)別等方法,實(shí)現(xiàn)在三方API上或者知識(shí)圖譜上進(jìn)行搜索,不過(guò)這個(gè)方法會(huì)稍微復(fù)雜一些,一般還需要會(huì)話的支持,此方面有專門的文章和報(bào)告,這里不再贅述。

不過(guò)提起多輪會(huì)話,我們還可以利用這個(gè)技術(shù)解決另外一個(gè)問(wèn)題,即如何解決模糊提問(wèn)。實(shí)際中,用戶提出的某些問(wèn)題非常模糊,無(wú)法找到準(zhǔn)確答案,這常常會(huì)造成系統(tǒng)效果下降。例如用戶問(wèn)的問(wèn)題非常簡(jiǎn)短,僅僅兩三個(gè)字,這顯然很難在QA 數(shù)據(jù)庫(kù)里檢索到一個(gè)準(zhǔn)確答案。

圖6

圖6是一些資料上對(duì)機(jī)器人進(jìn)行的劃分,對(duì)話機(jī)器人在這里分為QA類和會(huì)話類兩類機(jī)器人。QA類機(jī)器人就是在結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)上進(jìn)行檢索。而會(huì)話機(jī)器人則通常需要在多輪會(huì)話支持下,就一個(gè)問(wèn)題多次與用戶進(jìn)行交流,捕獲用戶意圖,給出對(duì)應(yīng)的響應(yīng),比如閑聊機(jī)器人,任務(wù)機(jī)器人以及推薦機(jī)器人等。

我們認(rèn)為QA機(jī)器人也會(huì)逐漸引入會(huì)話的概念,對(duì)于用戶提出的模糊問(wèn)題,完全可以利用對(duì)話狀態(tài)分析、對(duì)話狀態(tài)管理以及關(guān)鍵信息識(shí)別等方法來(lái)判斷用戶的意圖是什么,缺失的信息有哪些,之后利用文本生成或追加提問(wèn)等方法來(lái)要求用戶補(bǔ)充更多信息。這樣我們的機(jī)器人在有足夠信息的條件下,就可以查找到更精準(zhǔn)的結(jié)果。

圖7 機(jī)器人處理主要流程

圖7是機(jī)器人的處理流程,分為了預(yù)處理、分析分類、檢索匹配、綜合排序四個(gè)主要環(huán)節(jié),各環(huán)節(jié)所涉及的技術(shù)也有枚舉,報(bào)告之前我們著重介紹的QQ檢索、QA匹配等任務(wù)。

另外,我們對(duì)聊天機(jī)器人這一相對(duì)高級(jí)的場(chǎng)景也提供了平臺(tái)化的管理(見(jiàn)圖8),其架構(gòu)主要是在底層的自然語(yǔ)言處理平臺(tái)上進(jìn)行了進(jìn)一步的場(chǎng)景化包裝,在其基礎(chǔ)之上增加了聊天機(jī)器人模塊(包括Web/APP集成、對(duì)話管理、人工后臺(tái)、外部API對(duì)接等),QA庫(kù)管理模塊(包括數(shù)據(jù)管理、實(shí)施發(fā)布等)和知識(shí)庫(kù)管理模塊(批量導(dǎo)入、內(nèi)容管理、語(yǔ)料生成等)以及很重要的統(tǒng)計(jì)模塊(包括統(tǒng)計(jì)挖掘和報(bào)表展示)。

圖8 平臺(tái)化高級(jí)場(chǎng)景管理

我們通過(guò)對(duì)場(chǎng)景中各功能進(jìn)行封裝和整合,以平臺(tái)的形式提供一個(gè)一站式解決方案,用戶在付出少量數(shù)據(jù)的情況下,就可以對(duì)模型無(wú)感知地迅速構(gòu)建一個(gè)自己的業(yè)務(wù)問(wèn)答機(jī)器人。

圖9~圖11為機(jī)器人的一些運(yùn)行效果截圖。其中圖9為web版機(jī)器人交互界面,可以看到機(jī)器人回答的形式包括精準(zhǔn)回答、相似問(wèn)題、文檔庫(kù)搜索內(nèi)容。

圖9 機(jī)器人展示效果

圖10是后臺(tái)管理界面中的會(huì)話檢索功能,可以在此方便地瀏覽機(jī)器人和系統(tǒng)用戶所進(jìn)行的會(huì)話,評(píng)估機(jī)器人效果,并可以把在會(huì)話過(guò)程中發(fā)現(xiàn)的、QA庫(kù)里沒(méi)有記錄到的新問(wèn)題識(shí)別出來(lái),快速方便地添加到QA庫(kù)之中。

圖10 后臺(tái)管理-會(huì)話檢索頁(yè)面

圖11為模型管理模塊,其中可以看到機(jī)器人所涉及的各類模型列表,每個(gè)模型后有相關(guān)操作按鈕,可以對(duì)模型進(jìn)行上線、更新、重啟、停止等一系列管控操作。

圖11 后臺(tái)管理-模型管理頁(yè)面

以上便是NLP技術(shù)在宜信的應(yīng)用場(chǎng)景之一:智能聊天機(jī)器人。下篇我們會(huì)為大家介紹另一個(gè)應(yīng)用場(chǎng)景,構(gòu)建客戶畫像。敬請(qǐng)大家期待~

宜信技術(shù)學(xué)院

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://specialneedsforspecialkids.com/yun/19887.html

相關(guān)文章

  • 敏捷AI | NLP技術(shù)宜信業(yè)務(wù)中的實(shí)踐【背景

    摘要:技術(shù)在宜信宜信擁有豐富的業(yè)務(wù)和產(chǎn)品線,這些產(chǎn)品線產(chǎn)生了大量的人工智能賦能需求。技術(shù)在宜信的實(shí)踐背景暫且介紹到這里,接下來(lái)我們會(huì)為大家介 文章圍繞基于機(jī)器學(xué)習(xí)的NLP技術(shù)在宜信內(nèi)部各業(yè)務(wù)領(lǐng)域的應(yīng)用實(shí)踐展開(kāi),分享這一過(guò)程中的相關(guān)經(jīng)驗(yàn),包括智能機(jī)器人在業(yè)務(wù)支持、客戶服務(wù)中的探索,基于文本語(yǔ)義分析的用戶畫像構(gòu)建,以及NLP算法服務(wù)平臺(tái)化實(shí)施思路等。本文為背景篇,敬請(qǐng)大家閱讀~ 作者:井玉欣。畢...

    myshell 評(píng)論0 收藏0
  • 敏捷AINLP技術(shù)宜信業(yè)務(wù)中的實(shí)踐「構(gòu)建用戶畫像

    摘要:導(dǎo)讀前面兩篇我們介紹了技術(shù)在宜信應(yīng)用的背景敏捷技術(shù)在宜信業(yè)務(wù)中的實(shí)踐背景篇,以及應(yīng)用場(chǎng)景之一敏捷技術(shù)在宜信業(yè)務(wù)中的實(shí)踐智能聊天機(jī)器人篇。這就是我們實(shí)現(xiàn)的一個(gè)實(shí)時(shí)用戶畫像處理流程。 導(dǎo)讀: 前面兩篇我們介紹了NLP技術(shù)在宜信應(yīng)用的背景《敏捷AI | NLP技術(shù)在宜信業(yè)務(wù)中的實(shí)踐【背景篇】》,以及應(yīng)用場(chǎng)景之一《敏捷AI | NLP技術(shù)在宜信業(yè)務(wù)中的實(shí)踐【智能聊天機(jī)器人篇】》。本篇為另一個(gè)場(chǎng)...

    djfml 評(píng)論0 收藏0
  • AI中臺(tái):一種敏捷智能業(yè)務(wù)支持方案

    摘要:月日晚點(diǎn),線上直播,中臺(tái)一種敏捷的智能業(yè)務(wù)支持方案金融科技領(lǐng)域,能解決什么問(wèn)題在宜信年的發(fā)展歷程中,圍繞普惠金融和財(cái)富管理兩大業(yè)務(wù)板塊,宜信陸續(xù)推出了宜人貸宜人財(cái)富致誠(chéng)信用博城保險(xiǎn)等多個(gè)產(chǎn)品,技術(shù)已被廣泛應(yīng)用到各產(chǎn)品的業(yè)務(wù)線中。 [宜信技術(shù)沙龍】是由宜信技術(shù)學(xué)院主辦的系列技術(shù)分享活動(dòng),活動(dòng)包括線上和線下兩種形式,每期技術(shù)沙龍都將邀請(qǐng)宜信及其他互聯(lián)網(wǎng)公司的技術(shù)專家分享來(lái)自一線的實(shí)踐經(jīng)驗(yàn),...

    Chaz 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

最新活動(dòng)
閱讀需要支付1元查看
<