摘要:近日,在個推技術(shù)沙龍深圳站,來自華為個推的技術(shù)大拿們在現(xiàn)場,對核心技術(shù)進行了深入的探討。最后,個推還支持了部署發(fā)布的工具,讓訓(xùn)練的成果能夠通過標準化的方式導(dǎo)出到線上,進行服務(wù)部署,真正地在線上產(chǎn)生價值。
人工智能技術(shù)的飛速發(fā)展給各行各業(yè)都帶來了深遠的影響,AI已被視為企業(yè)提升運營效能、應(yīng)對市場競爭的必經(jīng)之路。然而對于一些企業(yè)而言,讓AI真正實現(xiàn)落地和應(yīng)用,并且創(chuàng)造價值,仍是一件需要努力的事情。
近日,在個推技術(shù)沙龍TechDay深圳站,來自華為、個推、SheIn的技術(shù)大拿們在現(xiàn)場,對AI核心技術(shù)進行了深入的探討。
常越峰 《淺談AI工具鏈》個推大數(shù)據(jù)研發(fā)高級主管
AI在生產(chǎn)環(huán)境落地的整個過程中,通常會遇到三個挑戰(zhàn):
第一,業(yè)務(wù)場景復(fù)雜。簡單的一個算法也許只能優(yōu)化某個環(huán)節(jié),但整個業(yè)務(wù)場景的優(yōu)化可能需要許多算法的相互配合。
第二,數(shù)據(jù)問題。數(shù)據(jù)是AI的重要支撐之一,許多企業(yè)都欠缺獲取高質(zhì)量、有標注數(shù)據(jù)的能力。
第三,技術(shù)問題。在AI落地的過程所遇到的技術(shù)問題,有四個核心:1)CPU / GPU環(huán)境的調(diào)度和管理復(fù)雜。2)AI業(yè)務(wù)的開發(fā)人員們需要一個低門檻的實驗平臺,使其能夠進行快速的探索實驗。3)擁有大規(guī)模數(shù)據(jù)的企業(yè),需要工業(yè)級大規(guī)模分布式訓(xùn)練,來保證算法能夠應(yīng)用于全量數(shù)據(jù)中。4)企業(yè)需要提供低延遲的在線服務(wù)。
人工智能最核心的是數(shù)據(jù),而數(shù)據(jù)可以分為兩個部分,實時數(shù)據(jù)和離線數(shù)據(jù)。個推使用Hive方案進行離線數(shù)據(jù)的存儲,注重數(shù)據(jù)的容量和擴展性;而在線用戶對延時非常在意,所以個推會使用高性能KV庫,保證在線特征能夠及時地被訪問到。
在解決了基礎(chǔ)的數(shù)據(jù)存儲和使用問題之后,對于AI落地過程中的技術(shù)問題,個推內(nèi)部支持端到端的服務(wù),能夠使用標準化流程快速進行實踐探索。個推也自研了一些插件和產(chǎn)品包,簡化流程步驟和復(fù)雜度,幫助經(jīng)驗較少的開發(fā)者也可以在較短的時間內(nèi)搭建系統(tǒng)。最后,個推還支持了部署發(fā)布的工具,讓訓(xùn)練的成果能夠通過標準化的方式導(dǎo)出到線上,進行服務(wù)部署,真正地在線上產(chǎn)生價值。
在小微企業(yè)AI落地實踐的過程中,可以使用Kubeflow等開源技術(shù)棧。首先,環(huán)境的管理與調(diào)度可以使用Kubernates作為分布式環(huán)境標準;Jupyter +開源數(shù)據(jù)分析工具包+ AI框架可以進行低門檻的快速探索實驗;Kubeflow + Tensorflow / PyTorch / MXNet可以快速地部署大規(guī)模的分布式訓(xùn)練;最后,借助Kubernates提供的快速部署、上線、擴縮容的能力,可以提供高可用的在線服務(wù)。
而在AI實際落地時,企業(yè)則需要注意以下三點:
第一,快與高效。企業(yè)可以借助開源工具快速落地業(yè)務(wù),同時也要注意沉淀流程和垂直領(lǐng)域。
第二,集成打通。Kubernates方案并不是唯一的選擇,企業(yè)需要考慮自身情況,與已有系統(tǒng)進行對接,選擇適合自身的方案。
第三,團隊建設(shè)。各個技術(shù)部門之間需要進行高效的配合,企業(yè)也可以引導(dǎo)研發(fā)工程師逐漸地融入AI領(lǐng)域。
馬興國 《個性化推薦閑聊》SheIn 產(chǎn)品研發(fā)中心 副總經(jīng)理
對于企業(yè)來說,如果想要做好AI個性化產(chǎn)品的業(yè)務(wù),只有算法工程師是不夠的,還需要工程、數(shù)據(jù)分析人員的支持,以及產(chǎn)品、運營人員的助力。
當企業(yè)涉及到的業(yè)務(wù)較多時,也可以將業(yè)務(wù)進行通用處理,即建設(shè)偏向系統(tǒng)層面的推薦平臺。該推薦平臺需要數(shù)據(jù)、算法和系統(tǒng)的共同配合。推薦平臺的接入,可以帶來三點功能:第一,企業(yè)在進行物料同步時,可以做到格式統(tǒng)一,并且同步增量和全量;第二,平臺在處理用戶的服務(wù)請求時,可以做到標準化、高性能和智能化;第三,平臺可以格式統(tǒng)一、實時、離線地上報用戶行為。
簡單的機器學(xué)習(xí)過程是搭建環(huán)境、收集數(shù)據(jù)、分析數(shù)據(jù)、準備數(shù)據(jù)、訓(xùn)練算法、測試算法和使用算法。在這個過程中也隱藏著許多問題,比如如何解決冷啟動問題,如何解決假曝光問題,如何清洗異常數(shù)據(jù),如何選擇正負樣本,如何解決數(shù)據(jù)稀疏問題,如何從億級特征中選擇顯著特征等。
在機器學(xué)習(xí)的過程中,數(shù)據(jù)是基礎(chǔ),理想的狀態(tài)是數(shù)據(jù)的數(shù)量大且特征完備。收集數(shù)據(jù)有“推”和“拉”兩種方式,“拉”即是爬蟲,“推”就是上報。而分析數(shù)據(jù)則是分析目標分布、特征分布、目標特征關(guān)系、特征間的關(guān)系和完整性等。分析數(shù)據(jù)的方式有離線分析、實時分析和融合分析,分析工具則可以在Excle、Shell(awk)、Python、Mysql、Hadoop、Spark、Matlab…當中進行選擇。清洗數(shù)據(jù)需要清洗系統(tǒng)臟數(shù)據(jù)、業(yè)務(wù)臟數(shù)據(jù)和目標外數(shù)據(jù)。格式化數(shù)據(jù)則需要進行數(shù)據(jù)變換、采樣和稀疏處理。
而機器學(xué)習(xí)可以選擇的算法模型較多,如熱度、貝葉斯、關(guān)聯(lián)規(guī)則、LR、GBDT、AR、CF(ALS)等等。
在算法模型中,特征工程也是非常重要的一部分。其中,特征對象有物料、用戶和上下文;特征類型有靜態(tài)特征、動態(tài)特征、表征特征、枚舉特征、實數(shù)特征等;特征維度則有一階獨立特征、二階交叉特征和多階交叉特征。特征的選擇也是一件需要注意的事情,企業(yè)可以在過濾型、包裹型和嵌入型三種特征進行選擇,同時,企業(yè)還需要在前向、后向和StepWise三種特征過程類型中進行選擇。
算法的最后還需要進行效果評估、多維度評估、實時評估和離線評估。企業(yè)還需要注意到,沒有一勞永逸的模型,算法需要進行持續(xù)的關(guān)注和運營。
合適環(huán)境的搭建也是算法能夠正常運行的保障之一。算法的環(huán)境需要標準化、配置化、可擴展、高性能,同時支持立體監(jiān)控和效果提升,保證用戶體驗。
聶鵬鶴 《AI識別,從圖像到人臉》華為算法工程師
在計算機領(lǐng)域,上世紀90年代就有人嘗試,將圖像的特征和識別的過程,通過人類的規(guī)則同步給計算機,讓計算機進行“圖像識別”。一直到了2012、13年,人們發(fā)現(xiàn),對傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)方式做一些小的變化,能夠大幅度地提升計算機進行圖像識別的可操作性,這個改善后的神經(jīng)網(wǎng)絡(luò)被稱為卷積神經(jīng)網(wǎng)絡(luò)(CNN)。CNN進行圖像處理的本質(zhì)是信息提取,也被稱為自動的特征工程,即通過巨大的神經(jīng)網(wǎng)絡(luò)一步步地抽取到關(guān)鍵的圖像特征,從而達到圖像識別的目的。
而人臉識別則是一種基于人的臉部特征信息,進行身份識別的生物識別技術(shù)。現(xiàn)如今,人臉識別已經(jīng)可以有效地對用戶身份進行識別,并且被廣泛地應(yīng)用于支付、安檢、考勤等場景。而隨著人臉數(shù)據(jù)系統(tǒng)的建設(shè),人臉識別也將成為反欺詐、風(fēng)控等的有效手段之一,能夠極大地縮短身份審核的確認時間。
人臉識別最大的優(yōu)點是非接觸性,可以隱蔽操作,這使得它能夠適用于安全問題、罪犯監(jiān)控與抓逃應(yīng)用。同時,非接觸性的信息采集沒有侵犯性,容易被大眾接受。而人臉識別方便、快捷、強大的事后追蹤能力,也符合人類的識別習(xí)慣。人臉識別的不足之處,在于不同人臉的相似性小,同時識別性能受外界條件的影響大。
人臉識別的步驟主要包括人臉檢測、人臉對齊校準、人臉特征提取、人臉特征模型建立、人臉特征匹配以及人臉識別結(jié)果的輸出。
其中,人臉檢測的目標是找出圖像中,人臉所對應(yīng)的位置,算法輸出的則是人臉外接矩形在圖像中的坐標,可能還包括姿態(tài),如傾斜角度等信息。
人臉識別的第二步是人臉對齊,它需要在保證人臉的特征等要素沒有發(fā)生扭曲和變化的前提下進行使用,在這樣的情況下,輸出的人臉距離才能與后期的模型進行有效對比。
人臉識別的最后一步是人臉匹配,在網(wǎng)絡(luò)足夠大,樣本足夠豐富的情況下,人臉匹配的準確率會非常高。
在人臉識別的領(lǐng)域,深度學(xué)習(xí)網(wǎng)絡(luò)的發(fā)展會越來越好。深度學(xué)習(xí)有其相應(yīng)的優(yōu)勢,它強調(diào)了數(shù)據(jù)的抽象和特征的自動學(xué)習(xí),并且它的自主學(xué)習(xí)特征更為可靠。
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://specialneedsforspecialkids.com/yun/19908.html
摘要:近日,在個推技術(shù)沙龍深圳站,來自華為個推的技術(shù)大拿們在現(xiàn)場,對核心技術(shù)進行了深入的探討。最后,個推還支持了部署發(fā)布的工具,讓訓(xùn)練的成果能夠通過標準化的方式導(dǎo)出到線上,進行服務(wù)部署,真正地在線上產(chǎn)生價值。 人工智能技術(shù)的飛速發(fā)展給各行各業(yè)都帶來了深遠的影響,AI已被視為企業(yè)提升運營效能、應(yīng)對市場競爭的必經(jīng)之路。然而對于一些企業(yè)而言,讓AI真正實現(xiàn)落地和應(yīng)用,并且創(chuàng)造價值,仍是一件需要努力...
摘要:訓(xùn)練和建模邏輯的算法既是瓶頸也是突破口,深度學(xué)習(xí)的未來應(yīng)用與發(fā)展值得矚目。自研發(fā)深度學(xué)習(xí)系統(tǒng)薄言豆豆人機對話成功率達,是目前比較優(yōu)秀的的中文理解智能系統(tǒng)。 2016正好是人工智能概念誕生60周年。早在1956年,美國達特茅斯(Dartmouth)大學(xué)召開的學(xué)術(shù)會議上就提出了人工智能的概念。60年里,科學(xué)技術(shù)的積累使得機器學(xué)習(xí)、模式識別、人機交互這三個基礎(chǔ)支撐可以得到較為廣泛的應(yīng)用。隨著一個甲...
摘要:阿里安全圖靈實驗室的算法程序媛于鯤在阿里巴巴這幾年的錘煉,于鯤已經(jīng)成長為國內(nèi)人臉核心算法領(lǐng)域的頂級專家。在阿里巴巴是一種全新的體驗從年到現(xiàn)在,于鯤一直在做人臉識別技術(shù)的研究和開發(fā)。 摘要: 一個專注人臉識別技術(shù)長達11年的程序媛。 程序媛、AI、算法、人臉識別、阿里安全圖靈實驗室……這些標簽任何一個都極具話題性,但如果一個女子同時擁有這些標簽,那會是怎樣的存在? 在見到于鯤之前,我的...
摘要:原著中桃谷六仙是給令狐沖硬灌真氣,作者筆誤但不妨礙意思。華為擅長鑄劍,卻不擅長用劍。而這些深入接觸用戶痛點的產(chǎn)品,我們都看不上,因為太小,不能在華為的銷服體系下大規(guī)模批量復(fù)制,所以都不愿意做。所有資源向公有云傾斜,導(dǎo)致其他領(lǐng)域全部貧血。 慣例元旦過了,分紅混到了,該慣例了。慣例就該瀟瀟灑灑的走,不需要哀哀惋惋仿佛全世界都欠你的,或飛鳥出籠仿佛逃出生天一般歡脫自在,這都不是我的范。先說一下慣例...
閱讀 2337·2019-08-30 15:44
閱讀 1260·2019-08-30 13:01
閱讀 3306·2019-08-30 11:22
閱讀 3093·2019-08-29 15:23
閱讀 1614·2019-08-29 12:22
閱讀 3366·2019-08-26 13:58
閱讀 3439·2019-08-26 12:17
閱讀 3479·2019-08-26 12:16