京東DNN Lab首席科學(xué)家：用深度學(xué)習(xí)搞定80%的客服工作

blastz 發(fā)布于2019-04-25 17:58 / 840人閱讀

摘要：京東更是已經(jīng)實現(xiàn)深度學(xué)習(xí)的初步運用。目前深度學(xué)習(xí)推廣的條件已經(jīng)成熟。李成華表示，隨著深度學(xué)習(xí)的發(fā)展和成熟，的機器學(xué)習(xí)算法將會被取代。京東研究深度學(xué)習(xí)的初衷客服對電商發(fā)展的重要性毋庸置疑。隨后深度學(xué)習(xí)技術(shù)的風靡，加深了京東完善的想法。

說深度學(xué)習(xí)（Deep Learning）算法是當前“人工智能皇冠上的明珠”并不過分。通過深層神經(jīng)網(wǎng)絡(luò)（DNN）模型的運用，深度學(xué)習(xí)已成為目前最接近人腦的智能學(xué)習(xí)方法，不僅Google、Facebook、百度、騰訊等國內(nèi)外搜索和社交公司為之瘋狂，電商巨頭京東和阿里也已經(jīng)加入競爭。京東更是已經(jīng)實現(xiàn)深度學(xué)習(xí)的初步運用。

深度學(xué)習(xí)技術(shù)在電商運營中的價值如何實現(xiàn)？未來的應(yīng)用趨勢是什么？在近日的京東技術(shù)狂歡節(jié)上，CSDN記者采訪了京東深度神經(jīng)網(wǎng)絡(luò)實驗室（DNN Lab）首席科學(xué)家李成華，就此問題進行了討論，具體的話題涉及京東如何理解深度學(xué)習(xí)、為何要做深度學(xué)習(xí)、如何展開深度學(xué)習(xí)的研究、深度學(xué)習(xí)技術(shù)在京東的應(yīng)用現(xiàn)狀以及京東在研發(fā)過程中的一些心得等。

京東深度神經(jīng)網(wǎng)絡(luò)實驗室（DNN Lab）首席科學(xué)家李成華

李成華介紹，京東DNN Lab主要專注于人工智能和機器學(xué)習(xí)領(lǐng)域前瞻性的研究，涉及神經(jīng)網(wǎng)絡(luò)、知識層次、異構(gòu)計算等技術(shù)的研發(fā)。DNN Lab目前主要成果包括命名實體識別、用戶意圖識別、用戶畫像和自動問答等，產(chǎn)品化是JIMI智能機器人，已經(jīng)成功應(yīng)用于售前咨詢、售后服務(wù)和生活伴侶三個場景，承擔超過30%的京東客服任務(wù)。作為一個“新生兒”，JIMI會把處理不了的問題轉(zhuǎn)到人工客服，但京東希望未來JIMI可以包攬至少80%的客服工作。

同時，京東也將會探索利用深度學(xué)習(xí)算法提升產(chǎn)品銷量預(yù)測、互聯(lián)網(wǎng)金融、智能硬件、智能搜索、推薦廣告等方面的效果。

大數(shù)據(jù)催熟深度學(xué)習(xí)

深度學(xué)習(xí)是模擬人腦進行分析學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)，它模仿人腦的機制來解釋和處理各種數(shù)據(jù)，包括文本數(shù)據(jù)、圖像數(shù)據(jù)和語音數(shù)據(jù)等。

人工神經(jīng)網(wǎng)絡(luò)具有良好的學(xué)習(xí)能力和解決問題的能力，但傳統(tǒng)神經(jīng)網(wǎng)絡(luò)一般只有兩三層的神經(jīng)網(wǎng)絡(luò)，其有限的參數(shù)和計算單元，對復(fù)雜函數(shù)的表示能力有限，學(xué)習(xí)能力受到制約，特征的開發(fā)和篩選也極為耗費人力。包含多個隱藏層的深度學(xué)習(xí)模型則不一樣，根據(jù)機器學(xué)習(xí)泰斗、多倫多大學(xué)計算機系教授Geoffery Hinton的論文，它的優(yōu)勢更大：

1、多隱藏層的人工神經(jīng)網(wǎng)絡(luò)具有優(yōu)異的特征學(xué)習(xí)能力，學(xué)習(xí)到的特征對數(shù)據(jù)有更本質(zhì)的刻畫，從而有利于可視化或分類。

2、深度神經(jīng)網(wǎng)絡(luò)在訓(xùn)練上的難度，則可以通過“逐層初始化”（Layer-wise Pre-training）來有效克服。

在李成華看來，相比傳統(tǒng)神經(jīng)網(wǎng)絡(luò)，深度學(xué)習(xí)更懂用戶、更智能、更精準，更符合京東的業(yè)務(wù)需求。

目前深度學(xué)習(xí)推廣的條件已經(jīng)成熟。一方面，傳統(tǒng)神經(jīng)網(wǎng)絡(luò)在大數(shù)據(jù)量的學(xué)習(xí)上性能較差，不符合大數(shù)據(jù)所需的時效性。另一方面，大數(shù)據(jù)的演進催生了軟硬件系統(tǒng)的進步，分布式架構(gòu)的產(chǎn)生，使得算法的性能已經(jīng)不是瓶頸，并行化框架和訓(xùn)練加速方法，讓深度學(xué)習(xí)的前景變得光明。同時，大數(shù)據(jù)也會讓深度學(xué)習(xí)的效果越來越好。所以，從某種意義上說，深度學(xué)習(xí)是大數(shù)據(jù)的較佳拍檔。

根據(jù)業(yè)界報道，深度學(xué)習(xí)在幾個主要領(lǐng)域都獲得了突破性的進展：

在語音識別領(lǐng)域，深度學(xué)習(xí)用深層模型替換聲學(xué)模型中的混合高斯模型（GMM），獲得了相對30%左右的錯誤率降低；

在圖像識別領(lǐng)域，通過構(gòu)造深度卷積神經(jīng)網(wǎng)絡(luò)（CNN），將Top5錯誤率由26%大幅降低至15%，又通過加大加深網(wǎng)絡(luò)結(jié)構(gòu)，進一步降低到11%；

在自然語言處理領(lǐng)域，深度學(xué)習(xí)基本獲得了與其他方法水平相當?shù)慕Y(jié)果，但可以免去繁瑣的特征提取步驟。

李成華表示，隨著深度學(xué)習(xí)的發(fā)展和成熟，80%的機器學(xué)習(xí)算法將會被取代。

京東研究深度學(xué)習(xí)的初衷

客服對電商發(fā)展的重要性毋庸置疑。京東雖然有近5000人的人工客服團隊，但應(yīng)付618或者雙十一大促仍然顯得捉襟見肘。2012年12月，京東開始籌劃成立JIMI智能客服團隊，通過一些機器算法模擬人的思維，達到客服跟用戶交流的效果。隨后深度學(xué)習(xí)技術(shù)的風靡，加深了京東完善JIMI的想法。2014年9月9日，京東成立了京東深度神經(jīng)網(wǎng)絡(luò)實驗室（DNN Lab），旨在通過神經(jīng)網(wǎng)絡(luò)、知識層次、異構(gòu)計算等新興領(lǐng)域的研究和應(yīng)用來確保京東技術(shù)的領(lǐng)先性，提高JIMI的智能性及其應(yīng)用的廣泛性是實驗室的較早的直接目標。

該實驗室直接隸屬于京東副總裁馬松——馬松本人是電商及人工智能領(lǐng)域的資深專家，在美國日本做過多年的研究，并曾在eBay擔任要職。擔任首席科學(xué)家的李成華是加拿大約克大學(xué)的博士后、美國麻省理工大學(xué)的訪問科學(xué)家，在神經(jīng)網(wǎng)絡(luò)領(lǐng)域有超過十年的研究基礎(chǔ)和行業(yè)經(jīng)驗。其他8名成員也是來自全球知名高校、企業(yè)和研究機構(gòu)的技術(shù)精英，具有多年的實踐經(jīng)驗和技術(shù)積累。

深度學(xué)習(xí)技術(shù)固然有很大的應(yīng)用價值，但隨著IBM Watson、百度大腦等平臺的開放，這種能力的獲得并不困難，產(chǎn)品化的好壞才是直接影響客戶服務(wù)能力的因素。京東沒有采用戰(zhàn)略合作的方式，而是選擇在這個領(lǐng)域投入豪華的陣容自主研發(fā)，這說明，深度學(xué)習(xí)和數(shù)據(jù)挖掘技術(shù)已經(jīng)被電商企業(yè)視為核心競爭力，立志做技術(shù)驅(qū)動型企業(yè)的京東，必須自己掌握核心這些技術(shù)，讓數(shù)據(jù)更好地服務(wù)于自己。

京東DNN Lab的研發(fā)方向

與Google、百度、騰訊在圖像和語音識別領(lǐng)域投入重金不同，京東DNN Lab目前更注重自然語言的處理。李成華強調(diào)，京東深度學(xué)習(xí)算法目前用于破解傳統(tǒng)機器學(xué)習(xí)算法的瓶頸，提升JIMI在各個環(huán)節(jié)的性能、智能程度，從而提升用戶滿意度。基于這樣的目標，DNN Lab主要進行如下4個方面的研發(fā)：

意圖識別：針對用戶輸入的文本，通過意圖識別之后對應(yīng)到訂單、售后、商品、閑聊等不同的類別。意圖識別對JIMI非常重要，用戶的每一句問話，JIMI首先要判斷他的意圖，到底說的是訂單問題、商品咨詢還是售后問題，抑或單純的閑聊，才會給出更好的反饋。

命名實體識別：先對用戶輸入的文本進行識別，在對識別后的命名實體進行抽取，對應(yīng)到人名、地名、商品名、機構(gòu)名等不同類別，更好地理解用戶的語言。所以，命名實體識別其實也是用戶意圖識別的必須步驟。

自動問答：在明確用戶的意圖之后，通過自動問答系統(tǒng)匹配答案，抽取和排序候選答案，給用戶反饋較佳答案和建議。通過深度學(xué)習(xí)的算法，可以提高自動問答的準確率。與此同時，京東還開發(fā)了一個知識庫，讓JIMI能夠通過深度學(xué)習(xí)算法識別用戶使用不同的詞語背后的各種情緒，從而提供有針對性的回答。

用戶畫像：通過用戶各個維度的數(shù)據(jù)，比如性別、能力、身高，歷史瀏覽記錄，購物記錄，是不是有小孩，最近購物傾向是什么，關(guān)注什么商品，對用戶做很細的刻度，分成很多維度的畫像，標注土豪還是屌絲，用戶價值維度是高是低還是中等，用戶是什么類別、性質(zhì)的，是理性保守型還是購物沖動型的，根據(jù)這種細粒度的畫像提供個性化的服務(wù)。

由于人工智能和深度學(xué)習(xí)技術(shù)與大數(shù)據(jù)相結(jié)合的研究和應(yīng)用都是在探索之中，DNN Lab還沒有詳細的長期規(guī)劃。李成華表示，未來的6個月之內(nèi)，DNN Lab的主要精力還是放在JIMI智能機器人的完善上——JIMI背后的用戶畫像、自然語言處理、各種自然問答、命名實體抽取等，每一個技術(shù)點其實都是一個很大的課題。因此，他同時表示出對深度學(xué)習(xí)人才的渴求。

不過，李成華也透露，京東對深度學(xué)習(xí)算法的主要預(yù)期，將在產(chǎn)品銷量預(yù)測、互聯(lián)網(wǎng)金融、智能硬件、商品搜索/推薦/廣告等方面。

DNN在京東的應(yīng)用

京東基于其人工客服和用戶交互產(chǎn)生的上億條數(shù)據(jù)對JIMI進行訓(xùn)練，模擬每一個用戶場景。JIMI的應(yīng)用如前文所述，主要分為三類場景。它在2014年雙十一期間接待了近百萬用戶，有效緩解了人工客服的壓力。

從實際效果來說， JIMI在一定程度上能夠讓不解內(nèi)情的用戶單從對話無法區(qū)分對方是智能機器人還是人工客服。不過，京東以用戶滿意度提升、用戶體驗的提升、用戶愿意使用、服務(wù)占比提高等指標是來衡量其技術(shù)的好壞或者應(yīng)用的效果，在每個課題上，都有識別的準確性、評判分類的準確性的不同標準。在這些標準下，京東內(nèi)部對JIMI現(xiàn)階段的服務(wù)效果較為滿意。

從神經(jīng)網(wǎng)絡(luò)層級來說，李成華介紹，目前工業(yè)界用得最多的已經(jīng)到了十幾層甚至幾十層，京東目前能夠做到八九層，明年可以達到十幾層。

在對京東其他大數(shù)據(jù)應(yīng)用場景的支持，DNN Lab目前主要是根據(jù)項目合作的形式來做，兄弟部門的算法工程師加入項目，提供數(shù)據(jù)和業(yè)務(wù)需求，看看哪些點上能用到深度學(xué)習(xí)，共同改進業(yè)務(wù)。

李成華希望能夠做到深度學(xué)習(xí)的平民化，即研究一種深度學(xué)習(xí)算法的架構(gòu)，把很多參數(shù)固定起來，通過預(yù)處理，封裝成跟數(shù)據(jù)相關(guān)性很小的標準化的API或者云服務(wù)，提供給京東內(nèi)部，讓他們很容易地應(yīng)用于各種數(shù)據(jù)，最終還將會向京東產(chǎn)業(yè)鏈輸出。

DNN Lab階段性成果的經(jīng)驗

京東DNN Lab正式成立至今不過短短的幾個月，JIMI智能機器人就已經(jīng)取得如此的成績，確實有驕傲的資本。總結(jié)一下，京東的成功主要有以下的幾個原因：

業(yè)務(wù)導(dǎo)向。相對于財大氣粗的Google、百度，京東的體量要小一些，這也讓京東以更加務(wù)實的姿態(tài)進入這個領(lǐng)域，以為業(yè)務(wù)帶來價值為宗旨，譬如第一個目標直指JIMI智能機器人的打造。所以，具體操作上，京東DNN Lab以項目組的方式運行，由一位副總裁直接領(lǐng)導(dǎo)，同時網(wǎng)羅全球優(yōu)秀的、有經(jīng)驗的技術(shù)人才，形成了一個高效的團隊。

數(shù)據(jù)量與數(shù)據(jù)質(zhì)量。得益于開放生態(tài)系統(tǒng)的構(gòu)建，京東擁有龐大的業(yè)務(wù)量并積累了較為完善的數(shù)據(jù)，因而深度學(xué)習(xí)才能達成較好的結(jié)果。李成華介紹說：“我們數(shù)據(jù)比較突出，從大數(shù)據(jù)來說京東的數(shù)據(jù)可能是所有電商中數(shù)據(jù)鏈最長的，包括經(jīng)銷商的數(shù)據(jù)、用戶一開始瀏覽我們的數(shù)據(jù)，可能別的電商有，最后我們做到客服有沒有返修，返修的時候跟我們?nèi)私换サ臅r候他的情緒是什么樣的，這是別的平臺他們沒有的，因為他們服務(wù)不是自己做的，我們推送服務(wù)全是自己做的，所以我們對用戶數(shù)據(jù)掌握非常全，所以我們的描述也是最準的。”

模型優(yōu)化。這又包括三個層面：針對輸入向量非常長的文本（京東的詞有將近十萬的維度），首先做特征的降維，而且能夠找到并應(yīng)用非常重要的有區(qū)別度的，有利于業(yè)務(wù)提升的特征。第二是說調(diào)節(jié)各種參數(shù)，使得算法能夠更快地收斂。第三是通過底層的分布式集群加速算法運算。李成華表示，京東借助于GPU加速運算構(gòu)建分布式集群，實現(xiàn)性能的提升與大數(shù)據(jù)量的支持，其單臺服務(wù)器能比純CPU運算性能提升8~10倍。

當然，這僅僅是京東在深度學(xué)習(xí)領(lǐng)域的初步應(yīng)用。當被問及DNN縱深研發(fā)的挑戰(zhàn)，李成華表示，其中的一個方面是訓(xùn)練的時間會比較長，因為它的迭代、交叉、神經(jīng)元的連接時間比較長。甚至如果參數(shù)調(diào)節(jié)不當，訓(xùn)練就沒有任何效果——隨著深度增加，參數(shù)調(diào)節(jié)需要很多的經(jīng)驗，然而這是一個新興領(lǐng)域。換句話說，人才的缺乏也是一大難題。未來，我們期待有破解這兩個挑戰(zhàn)的分享。

GPU云服務(wù)器云服務(wù)器深度學(xué)習(xí)dnn 科學(xué)深度學(xué)習(xí) 公眾號的客服管理系統(tǒng) qt中的客服端服務(wù)器

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://specialneedsforspecialkids.com/yun/4297.html

發(fā)表評論

登陸后可評論

0條評論

blastz

男|高級講師

我要關(guān)注我要私信

TA的文章

趣聊51之串口通信（概念篇）

閱讀 3916·2021-11-16 11:44
【力扣】47. 全排列 II

閱讀 3116·2021-11-12 10:36
學(xué)習(xí)軟件測試關(guān)鍵的地方80%人都不清楚

閱讀 3373·2021-10-08 10:04
三文讀透指針語法【中篇】@指針的進階---函數(shù)指針+函數(shù)指針數(shù)組+指向函數(shù)指針數(shù)組的指針

閱讀 1257·2021-09-03 10:29
Web網(wǎng)頁布局的主要方式

閱讀 391·2019-08-30 13:50
前端國際化的另類方式

閱讀 2605·2019-08-29 17:14
Vue組件-極簡的地址選擇器

閱讀 1735·2019-08-29 15:32
asp.net 環(huán)境搭建

閱讀 1081·2019-08-29 11:27

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

京東DNN Lab首席科學(xué)家：用深度學(xué)習(xí)搞定80%的客服工作

相關(guān)文章

機器視覺與深度神經(jīng)網(wǎng)絡(luò)：洗去浮華，一窺珠璣

科學(xué)領(lǐng)域中的深度學(xué)習(xí)一覽

發(fā)表評論

0條評論

blastz

男|高級講師

TA的文章

趣聊51之串口通信（概念篇）

【力扣】47. 全排列 II

學(xué)習(xí)軟件測試關(guān)鍵的地方80%人都不清楚

三文讀透指針語法【中篇】@指針的進階---函數(shù)指針+函數(shù)指針數(shù)組+指向函數(shù)指針數(shù)組的指針

Web網(wǎng)頁布局的主要方式

前端國際化的另類方式

Vue組件-極簡的地址選擇器

asp.net 環(huán)境搭建

最新活動