摘要:技術(shù)在宜信宜信擁有豐富的業(yè)務(wù)和產(chǎn)品線(xiàn),這些產(chǎn)品線(xiàn)產(chǎn)生了大量的人工智能賦能需求。技術(shù)在宜信的實(shí)踐背景暫且介紹到這里,接下來(lái)我們會(huì)為大家介
文章圍繞基于機(jī)器學(xué)習(xí)的NLP技術(shù)在宜信內(nèi)部各業(yè)務(wù)領(lǐng)域的應(yīng)用實(shí)踐展開(kāi),分享這一過(guò)程中的相關(guān)經(jīng)驗(yàn),包括智能機(jī)器人在業(yè)務(wù)支持、客戶(hù)服務(wù)中的探索,基于文本語(yǔ)義分析的用戶(hù)畫(huà)像構(gòu)建,以及NLP算法服務(wù)平臺(tái)化實(shí)施思路等。本文為背景篇,敬請(qǐng)大家閱讀~
作者:井玉欣。畢業(yè)于北京大學(xué)信息科學(xué)技術(shù)學(xué)院,獲博士學(xué)位,研究方向包括計(jì)算機(jī)軟件與理論、邏輯推理等,目前就職于宜信技術(shù)研發(fā)中心,從事人工智能、機(jī)器學(xué)習(xí)、自然語(yǔ)言處理以及知識(shí)工程等方面的研究。
業(yè)務(wù)背景宜信公司于2006年成立于北京,經(jīng)過(guò)12年的發(fā)展,目前圍繞著普惠和財(cái)富兩大業(yè)務(wù)板塊,陸續(xù)推出了許多相關(guān)產(chǎn)品,如宜人貸、宜人財(cái)富、致誠(chéng)信用、博城保險(xiǎn)等等。
實(shí)際上在這些產(chǎn)品的背后,AI技術(shù)已廣泛地應(yīng)用其相關(guān)的各條業(yè)務(wù)線(xiàn)中。
從宜信所處的金融領(lǐng)域的各個(gè)子領(lǐng)域來(lái)劃分,可以分為智能交易、智能信貸、金融信息、金融安全、個(gè)性化服務(wù)這五個(gè)方面,每個(gè)方面都有相關(guān)人工技術(shù)的輔助。
例如智能交易領(lǐng)域,有智能投研、量化分析、自動(dòng)/輔助交易等技術(shù);智能信貸領(lǐng)域,有能夠進(jìn)行身份識(shí)別、用戶(hù)畫(huà)像以及智能風(fēng)控等相關(guān)的人工智能產(chǎn)品;金融信息領(lǐng)域,我們會(huì)進(jìn)行知識(shí)工程、圖譜分析、智能問(wèn)答等;金融安全領(lǐng)域,要進(jìn)行反欺詐分析;而個(gè)性化服務(wù)領(lǐng)域就更廣泛了,我們有行為分析、智能營(yíng)銷(xiāo)、推薦與匹配以及智能理財(cái)顧問(wèn)等等一系列比較成熟的AI產(chǎn)品。
讓我們繼續(xù)向下探究,在這些AI產(chǎn)品的背后,會(huì)發(fā)現(xiàn)都有一些NLP(Natural Language Processing, 自然語(yǔ)言處理)技術(shù)的影子。比如在智能交易領(lǐng)域,我們需要理解相當(dāng)多的投研報(bào)告,這里就會(huì)用到報(bào)告理解方面的NLP技術(shù);智能信貸領(lǐng)域,可能需要進(jìn)行風(fēng)控報(bào)告的生成和分析,也要用到相關(guān)的NLP技術(shù);知識(shí)工程領(lǐng)域,要對(duì)金融信息進(jìn)行知識(shí)提取,或者為了構(gòu)建知識(shí)圖譜進(jìn)行關(guān)系提取、事件提取等;智能營(yíng)銷(xiāo)和智能理財(cái)顧問(wèn)中,則需要智能聊天以及話(huà)術(shù)提取的處理技術(shù)。
可以說(shuō)NLP技術(shù)貫穿了各個(gè)領(lǐng)域的AI產(chǎn)品,其直接原因就是因?yàn)槲覀兊臉I(yè)務(wù)中存在著大量的自然語(yǔ)言數(shù)據(jù),如電銷(xiāo)通話(huà)數(shù)據(jù)、客戶(hù)分析小結(jié)、客服溝通內(nèi)容、內(nèi)部交流信息以及其他各種文本報(bào)告等等,這些數(shù)據(jù)都是使用自然語(yǔ)言來(lái)進(jìn)行存儲(chǔ)的;而且用自然語(yǔ)言文本存儲(chǔ)這些數(shù)據(jù),還有著其他形式數(shù)據(jù)無(wú)法比擬的一些優(yōu)點(diǎn),如圖1所示,自然語(yǔ)言數(shù)據(jù)來(lái)源豐富,信息表述多種多樣,保留信息完整,并且符合用戶(hù)習(xí)慣等等。
圖1 自然語(yǔ)言的特點(diǎn)
但是,我們需要注意到相較于這些優(yōu)點(diǎn),自然語(yǔ)言數(shù)據(jù)也有著數(shù)據(jù)非結(jié)構(gòu)化不易處理、存在可能的歧義性、語(yǔ)法不規(guī)則性、未知語(yǔ)言現(xiàn)象等缺點(diǎn)。另外,結(jié)合宜信所處的業(yè)務(wù)領(lǐng)域,這些自然語(yǔ)言又有一些獨(dú)特的特點(diǎn):更強(qiáng)的詞匯專(zhuān)業(yè)性、更廣泛的數(shù)據(jù)來(lái)源、多樣的數(shù)據(jù)形式(錄音數(shù)據(jù),文字對(duì)話(huà)數(shù)據(jù)以及短/長(zhǎng)文本的報(bào)告、小結(jié)等)、較大的數(shù)據(jù)量以及分布的不均衡性。
這些缺點(diǎn)使得自然語(yǔ)言數(shù)據(jù)并不容易處理,NLP技術(shù)實(shí)施起來(lái)難度也不小,但是為什么自然語(yǔ)言數(shù)據(jù)仍然越來(lái)越得到關(guān)注,NLP技術(shù)的實(shí)施也越來(lái)越廣泛了呢?
實(shí)際上,近幾年來(lái),各企業(yè)、組織開(kāi)始在業(yè)務(wù)中也越來(lái)越關(guān)注大量非結(jié)構(gòu)化數(shù)據(jù)中蘊(yùn)含的高價(jià)值信息。我們知道,結(jié)構(gòu)化數(shù)據(jù)比較好處理,但是經(jīng)過(guò)多年的發(fā)展,能夠從中挖掘出的信息越來(lái)越有限;而我們平時(shí)接觸到的非結(jié)構(gòu)化數(shù)據(jù),其數(shù)量級(jí)要比結(jié)構(gòu)化數(shù)據(jù)多出好幾倍,里面蘊(yùn)含著非常多的高價(jià)值信息。
典型的非結(jié)構(gòu)化數(shù)據(jù)包括圖片、視頻等,另外很重要的一部分就是自然語(yǔ)言文本數(shù)據(jù)。我們可以從這些自然語(yǔ)言文本中挖掘出大量有價(jià)值的內(nèi)容,例如在前面所述的宜信自然語(yǔ)言數(shù)據(jù)中我們就可以得到客戶(hù)信息、產(chǎn)品數(shù)據(jù)、輿論傾向、策略反饋等。
此外,自然語(yǔ)言處理給我們帶來(lái)了新的會(huì)話(huà)交互方式,更確切的說(shuō),基于自然語(yǔ)言理解和自然語(yǔ)言生成所形成的對(duì)話(huà)式用戶(hù)交互更加自然、高效、吸引人,更加符合用戶(hù)習(xí)慣,這也就是我們所說(shuō)的Conversational UI,新的交互方式越來(lái)越多的應(yīng)用在各個(gè)領(lǐng)域。比如我們接觸到的智能音箱小愛(ài)同學(xué),她的表現(xiàn)就非常驚艷。
所以,越來(lái)越多的業(yè)務(wù)開(kāi)始關(guān)注非結(jié)構(gòu)化數(shù)據(jù)和自然語(yǔ)言數(shù)據(jù)這些高數(shù)量級(jí)的有價(jià)值信息,它具有的一些特點(diǎn),提供的一些交互方式,帶來(lái)了更多擴(kuò)展的形式,這就導(dǎo)致了自然語(yǔ)言數(shù)據(jù)越來(lái)越重要,NLP技術(shù)越來(lái)越必要。
我們給NLP技術(shù)做一個(gè)簡(jiǎn)單的定位,即NLP技術(shù)承擔(dān)了領(lǐng)域內(nèi)自然語(yǔ)言數(shù)據(jù)的分類(lèi)、提取、轉(zhuǎn)換、生成任務(wù),是業(yè)務(wù)領(lǐng)域內(nèi)重要、基礎(chǔ)的技術(shù)服務(wù)之一。
NLP技術(shù)在宜信宜信擁有豐富的業(yè)務(wù)和產(chǎn)品線(xiàn),這些產(chǎn)品線(xiàn)產(chǎn)生了大量的人工智能賦能需求。算法團(tuán)隊(duì)成立以來(lái),一直面臨著不小的項(xiàng)目壓力。在整個(gè)項(xiàng)目的驅(qū)動(dòng)過(guò)程中,團(tuán)隊(duì)也逐漸得到成長(zhǎng),結(jié)合金融領(lǐng)域的相關(guān)業(yè)務(wù)知識(shí),磨練出從規(guī)則分析到統(tǒng)計(jì)學(xué)算法,再到更加復(fù)雜的神經(jīng)網(wǎng)絡(luò),以及NLP領(lǐng)域?qū)I(yè)技術(shù)等一系列技能。
圖2 相關(guān)算法技術(shù)棧
具體來(lái)講,我們從可以承擔(dān)基本的處理任務(wù)(利用一些現(xiàn)有的規(guī)則分析、基本算法模型所進(jìn)行的詞性分析、句法分析)發(fā)展到可以利用相對(duì)復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型對(duì)外提供文本分類(lèi)、文本聚類(lèi)、信息抽取等等一些模型服務(wù),再到目前實(shí)施的智能聊天機(jī)器人(Chatbot)、用戶(hù)畫(huà)像、知識(shí)工程等高級(jí)場(chǎng)景,技術(shù)也隨之轉(zhuǎn)向了transformer、GAN、強(qiáng)化學(xué)習(xí)、深度學(xué)習(xí)網(wǎng)絡(luò)等能力越來(lái)越強(qiáng)、結(jié)構(gòu)越來(lái)越復(fù)雜的模型。這一過(guò)程可以看出來(lái)技術(shù)在不斷的進(jìn)步。
除了技術(shù)在不斷的發(fā)展以外,我們也積攢了一批有價(jià)值的語(yǔ)料。在業(yè)務(wù)環(huán)節(jié)方面,我們積攢了如電銷(xiāo)數(shù)據(jù)、客服數(shù)據(jù)、陪訪(fǎng)數(shù)據(jù)、催收數(shù)據(jù)等語(yǔ)料;在業(yè)務(wù)領(lǐng)域方面,我們積攢了借貸(車(chē)、房、消費(fèi)),理財(cái)(投資、保險(xiǎn)、生活、傳承、公益)等方面的語(yǔ)料;而在數(shù)據(jù)形式方面,我們收集了對(duì)話(huà)類(lèi)(電話(huà)、文字溝通信息)、文章類(lèi)(小結(jié)、新聞、報(bào)告)形式的語(yǔ)料。
這是一批比較有價(jià)值的語(yǔ)料信息,最終形成了公司內(nèi)部的專(zhuān)業(yè)語(yǔ)料數(shù)據(jù),包括公司的產(chǎn)品清單、業(yè)務(wù)術(shù)語(yǔ)表、業(yè)務(wù)實(shí)體表乃至財(cái)富領(lǐng)域的財(cái)富產(chǎn)品知識(shí)圖譜等等。我們最終的目的是經(jīng)過(guò)一定的擴(kuò)充、抽象和加工之后,希望能夠形成金融領(lǐng)域的、高價(jià)值的、專(zhuān)業(yè)數(shù)據(jù)集,來(lái)對(duì)外進(jìn)行賦能輸出。比如我們可以輸出金融術(shù)語(yǔ)表、金融術(shù)語(yǔ)同義詞林、金融領(lǐng)域相關(guān)本體以及各個(gè)子領(lǐng)域的知識(shí)庫(kù)等。
此外,我們?cè)诜?wù)模式上也有一個(gè)演化的過(guò)程。早期我們是以項(xiàng)目為驅(qū)動(dòng)的服務(wù)模式,這個(gè)過(guò)程中存在著一些普遍的痛點(diǎn):
產(chǎn)品眾多、業(yè)務(wù)需求繁雜;
不同的業(yè)務(wù)相結(jié)合,需求不斷發(fā)生變化;
時(shí)效性要求,越快越好,上線(xiàn)稍晚就會(huì)影響到需求方;
研發(fā)團(tuán)隊(duì)人力有限,偶爾還要兼顧環(huán)境部署、上線(xiàn)模型監(jiān)控與維護(hù)等工作,整個(gè)過(guò)程中研發(fā)團(tuán)隊(duì)忙、壓力大,沒(méi)時(shí)間對(duì)模型進(jìn)行有效調(diào)優(yōu)。
那么如何解決這些痛點(diǎn)呢?反思過(guò)后,我們走出了重要的一步,即服務(wù)的平臺(tái)化。通過(guò)構(gòu)建一個(gè)統(tǒng)一的NLP模型平臺(tái),對(duì)外提供一個(gè)統(tǒng)一的NLP服務(wù),其優(yōu)點(diǎn)是:
降低成本,提高效率;
平臺(tái)上的模型可以靈活組合,快速響應(yīng)客戶(hù)的需求;
可以統(tǒng)一相關(guān)標(biāo)準(zhǔn),方便對(duì)模型進(jìn)行集中管理。
通過(guò)平臺(tái)化服務(wù),使我們的工作擺脫了原有的粗放式服務(wù)模式,提高了AI團(tuán)隊(duì)的輸出能力。
圖3 服務(wù)的平臺(tái)化
圖3為我們平臺(tái)的邏輯功能視圖,自底向上分為資源層、預(yù)處理層、模型層及場(chǎng)景層。資源層主要包括一系列的語(yǔ)料、標(biāo)簽、預(yù)訓(xùn)練模型等資源;預(yù)處理層包含一些常用的NLP技術(shù),如分詞分句、詞性分析、句法分析、主題分析、命名實(shí)體識(shí)別等;模型層則包括一些可以對(duì)外提供服務(wù)的算法模型,例如文本的聚類(lèi)、分類(lèi)、生成、復(fù)述等模型,情感分析模型等;最高的場(chǎng)景層則針對(duì)一些高級(jí)的、可以形成一定閉環(huán)能力的復(fù)雜場(chǎng)景進(jìn)行解決方案的構(gòu)建,例如對(duì)于智能機(jī)器人、用戶(hù)畫(huà)像等復(fù)雜場(chǎng)景,我們會(huì)形成一個(gè)包裝好的解決方案,提供給用戶(hù)使用。
圖4 NLP平臺(tái)架構(gòu)
圖4為NLP平臺(tái)工程架構(gòu)。我們構(gòu)建了一個(gè)支持Python環(huán)境的多任務(wù)調(diào)度微服務(wù)架構(gòu),從圖中可以看到我們利用Mongo、HDFS、ES、MQ等系統(tǒng)構(gòu)建了相關(guān)的數(shù)據(jù)訪(fǎng)問(wèn)層、模型算法層,在這兩層的基礎(chǔ)上,在微服務(wù)層我們對(duì)算法模型進(jìn)行任務(wù)調(diào)度管理;外部我們暴露出相關(guān)的Web接口和App接口。此外,縱向來(lái)看,我們集成了一些權(quán)限管理、多租戶(hù)管理功能,可以對(duì)接企業(yè)內(nèi)部的單點(diǎn)登錄、身份認(rèn)證、權(quán)限控制等系統(tǒng)。
NLP技術(shù)在宜信的實(shí)踐背景暫且介紹到這里,接下來(lái)我們會(huì)為大家介紹NLP技術(shù)在宜信應(yīng)用的兩個(gè)場(chǎng)景:智能聊天機(jī)器人和構(gòu)建客戶(hù)畫(huà)像。敬請(qǐng)大家期待~
宜信技術(shù)學(xué)院
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://specialneedsforspecialkids.com/yun/19888.html
摘要:導(dǎo)讀前面兩篇我們介紹了技術(shù)在宜信應(yīng)用的背景敏捷技術(shù)在宜信業(yè)務(wù)中的實(shí)踐背景篇,以及應(yīng)用場(chǎng)景之一敏捷技術(shù)在宜信業(yè)務(wù)中的實(shí)踐智能聊天機(jī)器人篇。這就是我們實(shí)現(xiàn)的一個(gè)實(shí)時(shí)用戶(hù)畫(huà)像處理流程。 導(dǎo)讀: 前面兩篇我們介紹了NLP技術(shù)在宜信應(yīng)用的背景《敏捷AI | NLP技術(shù)在宜信業(yè)務(wù)中的實(shí)踐【背景篇】》,以及應(yīng)用場(chǎng)景之一《敏捷AI | NLP技術(shù)在宜信業(yè)務(wù)中的實(shí)踐【智能聊天機(jī)器人篇】》。本篇為另一個(gè)場(chǎng)...
摘要:本篇為場(chǎng)景中的智能聊天機(jī)器人篇,敬請(qǐng)收看作者井玉欣。今天要介紹的是如何利用技術(shù)以及智能聊天機(jī)器人來(lái)解決組織內(nèi)部面臨的大量的每日業(yè)務(wù)咨詢(xún)問(wèn)題。圖對(duì)于現(xiàn)代企業(yè)來(lái)說(shuō),智能聊天機(jī)器人有著非常廣泛的業(yè)務(wù)需求。 寫(xiě)在前面:在背景篇《敏捷AI | NLP技術(shù)在宜信業(yè)務(wù)中的實(shí)踐【背景篇】》中,我們大概了解了NLP技術(shù)的發(fā)展情況,接下來(lái),我們會(huì)向大家介紹NLP技術(shù)在宜信應(yīng)用的高級(jí)場(chǎng)景。本篇為場(chǎng)景中的智能...
摘要:月日晚點(diǎn),線(xiàn)上直播,中臺(tái)一種敏捷的智能業(yè)務(wù)支持方案金融科技領(lǐng)域,能解決什么問(wèn)題在宜信年的發(fā)展歷程中,圍繞普惠金融和財(cái)富管理兩大業(yè)務(wù)板塊,宜信陸續(xù)推出了宜人貸宜人財(cái)富致誠(chéng)信用博城保險(xiǎn)等多個(gè)產(chǎn)品,技術(shù)已被廣泛應(yīng)用到各產(chǎn)品的業(yè)務(wù)線(xiàn)中。 [宜信技術(shù)沙龍】是由宜信技術(shù)學(xué)院主辦的系列技術(shù)分享活動(dòng),活動(dòng)包括線(xiàn)上和線(xiàn)下兩種形式,每期技術(shù)沙龍都將邀請(qǐng)宜信及其他互聯(lián)網(wǎng)公司的技術(shù)專(zhuān)家分享來(lái)自一線(xiàn)的實(shí)踐經(jīng)驗(yàn),...
閱讀 1975·2021-11-24 09:38
閱讀 3338·2021-11-22 12:07
閱讀 1902·2021-09-22 16:03
閱讀 1955·2021-09-02 15:41
閱讀 2617·2021-07-24 23:28
閱讀 2210·2019-08-29 13:17
閱讀 1546·2019-08-29 12:25
閱讀 2666·2019-08-29 11:10