摘要:前言阿里巴巴機器智能實驗室線下智能團隊從年底開始涉及線下智能領域,從算法工程產品化業務落地多個方面入手,與合作伙伴們一起取得了一些小小的成績。目前,該套工具作為推薦的量化工具廣泛應用在阿里集團內多個線下業務場景中。
阿里妹導讀:AI 技術已經從互聯網走向零售、汽車、銀行等傳統行業。受限于延時、成本、安全等多方面的限制,單一的云解決方案往往不能滿足場景需求。線下智能方案逐步成為了智能化過程中重要的一環,今天,我們就一起來了解這一環,希望這些內容可以讓同學了解線下智能的前景和其中待解決的技術點。前言
阿里巴巴機器智能實驗室線下智能團隊從16年底開始涉及線下智能領域,從算法、工程、產品化、業務落地多個方面入手,與合作伙伴們一起取得了一些小小的成績。算法方面,我們提出了自主研發的模型壓縮方法,新型模型結構和目標檢測框架;工程方面,我們研發出一套非數據依賴的量化訓練工具,并且針對不同硬件平臺,研發了高效推理計算庫;同時我們也和服務器研發團隊一起抽象出了一套軟硬件產品化方案,以服務多樣的業務形式,并在真實業務場景中實驗落地。
在后面的篇幅中,我們主要會從算法探索、訓練工具、推理框架、產品化和業務模式等方面對之前的工作做一個總結和分享。
算法探索基于 ADMM 的低比特量化
低比特量化是模型壓縮( ModelCompression )和推理加速( Inference Acceleration )中一個核心的問題,目的是將神經網絡中原有的浮點型參數量化成 1-8Bits 的定點參數,從而減小模型大小和計算資源消耗。為了解決這個問題,我們提出了基于 ADMM(Alternating Direction Method ofMultipliers)的低比特量化方案。在公開數據集 ImageNet 上,我們在 Alexnet,ResNet-18,Resnet-50 等經典 CNN 網絡結構上做了實驗,無論是精度上還是速度上均超過了目前已知的算法。我們可以在 3-bit 上面做到幾乎無損壓縮。目前該方法已經被廣泛應用到各種端上目標檢測和圖像識別的實際項目中。相關成果已經在 AAAI 2018 上發表。
統一量化稀疏框架
量化技術可以通過簡化計算單元(浮點計算單元->定點計算單元)提升推理速度。 稀疏化( Pruning ) 技術則是通過對神經網絡中的通路進行裁剪來減少真實計算量。我們很自然的將這兩個技術融合到了一起,來獲取極限的理論加速比。在剪枝過程中,我們采用了漸進式的訓練方法,并結合梯度信息決定網絡中路徑的重要程度。在 ResNet 結構上,我們可以做到90%稀疏度下的近似無損壓縮。
在稀疏化研究過程中,我們發現了一個問題,更細粒度的裁剪往往會獲得更高的精度,但是代價是犧牲了硬件友好性,很難在實際應用中獲得理論加速比。在后面的章節中,我們會通過兩個角度來解決這個問題:
軟硬件協同設計,從軟硬件角度同時出發解決問題;
新型輕量級網絡,從軟件角度設計適合更適合現有硬件的結構。
軟硬件協同網絡結構
通過量化和稀疏技術,我們可以獲得一個理論計算量足夠低,所需計算單元足夠簡單的深度網絡模型。下一個要解決的問題就是我們如何將其轉換成一個真實推理延時低的算法服務。為了挑戰極限的推理加速效果,我們和服務器研發團隊一起,從軟硬件聯合設計出發解決該問題。在該項目中,我們提出了以下幾個創新點,其中包括:
軟硬件協同設計方面,我們針對硬件物理特性提出了異構并行分支結構,最大化并行效率。
算法方面,我們利用量化、稀疏、知識蒸餾等技術,將理論計算量壓縮到原始模型的18%。
硬件方面,我們通過算子填充技術解決稀疏計算帶來的帶寬問題,利用算子重排技術平衡PE負載。
通過上述方案,我們只需要 0.174ms 的 latency 就可以完成 resnet-18 復雜程度的模型推理,達到業內最佳水平。該方案在對 latency 敏感的領域具有極大的優勢。相關成果已經在 HotChips 30 上展出。
新型輕量級網絡
軟硬件協同設計是一個非常好的推理解決方案,但是改方案的開發成本和硬件成本都很高。某些特定的場景對于 latency 和 accuracy 的容忍度比較高(例如人臉抓拍)。為了解決這類需求,我們提出了一種多聯合復用網絡 (Multi-Layer Feature Federation Network, MuffNet) ,該結構同時具有3個特點:
稀疏的拓撲結構,同時更容易獲取高頻響應;
密集的計算節點,保證硬件友好性;
針對低成本硬件充分優化,小計算量下精度提升更明顯;
我們提出的新型網絡由于每個單元的計算比較密集,并不存在過多的碎片操作,是非常適合在通用硬件上運行的。在公開數據集 ImageNet 上,我們在 40MFLops 計算量上相比目前業內最優的 shufflenetv2 結構,準確度絕對提升了2%。
端上目標檢測框架
相比圖像識別類任務,目標檢測類任務的適用場景更廣泛。高效的目標檢測框架具有很高的研究價值。針對端上場景,我們提出了一個 LRSSD 框架( light refine single short multiboxdetector ), 該框架包括以下幾個特點:
簡化 SSD HEAD,采用共享預測層 設計特征融合模塊;
融合不同尺度下信息 級聯形式的 bbox 回歸;
對檢測模型做全量化處理。
如上表所示,相同 backbone 網絡的情況下,我們提出的 LRSSD 在減少 SSD HEAD 計算量的同時,mAP 可以穩定提升3%-4% 。從另一個角度來看,在保證檢測精度不變的情況下,我們的方法可以將模型復雜度減少到原來的50%左右。如果再考慮到量化帶來的速度加成,在相同精度下,相比原有全精度模型,我們可以獲得總共約2-3倍的真實速度提升。
小結
上文給出了我們近2年內在線下智能—模型壓縮領域所做的一些技術積累。歸納起來如下:
量化方面:我們可以做到 3-bit 量化幾乎無損壓縮!
稀疏方面:對于傳統網絡結構,我們可以做到90%稀疏度下的幾乎無損壓縮!
軟硬件協同設計方面:我們聯合服務器研發團隊,達到0.174ms/張的resnet18 極限推理速度,目前已知業內最佳效果!
輕量級網絡設計方面:我們在 40MFlops 計算量下,相對目前業內最好結構,在 ImageNet 數據集上絕對提升2%!
端上目標檢測方面,我們在保證精度不變的情況下,速度提升約2-3倍!
在技術探索的同時,我們也在積極的將上述技術應用到實際的業務中。在這一過程中我們發現了下列幾個問題:
易用性: 業務場景往往需要快速的迭代能力和靈活方便的部署能力,因此非標準化的方案很難被廣泛應用。
理論速度 vs 真實速度: 除了算法和硬件以外,真實的模型推理速度是需要一個高效的工程實現作為支撐的。
集成化 :線下智能需要同時考驗團隊在硬件和軟件方面兩方面的實力,這對業務而言往往太過沉重。
在本文后半部分,我們首先會針對上述的幾個問題介紹我們已經做過的嘗試和沉淀出的解決方案。最后,我們列出了一些實例,展示如何在具體的業務場景中應用線下智能技術,希望可以給各位同學一個更直觀的認識。
訓練工具在實際業務推廣過程中,我們遇到的第一個問題是易用性問題:
不同業務往往使用的深度學習庫多種多樣,例如 Caffe, Tensorflow, Mxnet 等等;
不同業務使用的基礎技術差異比較大,有分類識別、檢測、分割、語音等等;
不同業務的數據安全級別差異比較大,有些可以公開,有些則需要完全物理隔離;
為了讓更多的場景都可以用上我們的服務,獲得 AI 的紅利,我們提出了一套標準化的量化訓練工具。
如上圖所示,首先,我們的工具輸入支持多種模型格式( TensorFlow,Caffe,Mxnet 等)。其次,我們提供了兩種不同的模型量化方法,一種是支持不同任務(分類,檢測,分割等)的數據依賴型壓縮方法( Data Dependent Compression ) , 適用于對數據安全要求不是很高,希望追求精度最大化的業務;另一種是數據非依賴壓縮方法( Data Independent Compression ),適用于對數據安全要求高,或者業務邏輯不是特別復雜的場景。
最后,在量化工作完成后,我們的工具會自動完成推理圖的優化和模型加密,生成可以實際部署的模型文件。配合對應的推理加速庫即可在端上運行。從易用性和數據安全性角度出發,我們推薦使用數據非依賴性的壓縮方法。
目前,該套工具作為MNN推薦的量化工具廣泛應用在阿里集團內多個線下業務場景中。
推理框架實際中遇到的第二個問題就是真實推理速度問題,畢竟光有易用性是不夠的,實打實的業務效果才是業務最想要的。這里我們使用阿里集團其他的兄弟團隊提供的推理框架:
ARM 架構: 我們采用淘系技術團隊研發的 MNN 作為推理框架;
GPU 架構: 我們采用機器智能技術團隊研發的 falcon_conv 卷積庫作為推理框架;
FPGA 架構:我們采用服務器研發團隊研發的推理框架。
MNN
MNN 是一個輕量級的深度學習端側推理引擎,核心解決深度神經網絡模型在端側推理運行問題,涵蓋深度神經網絡模型的優化、轉換和推理。目前,MNN已經在手淘、手貓、優酷、聚劃算、UC、飛豬、千牛等 20 多個 App 中使用。選用常見的深度神經網絡模型 MobileNet V2 和 SqueezeNet V1.1 作為測試樣本:Android 方面,以小米6為例,MNN 在 CPU 和 GPU 上領先業界至少30%;iOS 方面,以iPhone 7為例,MNN 在 CPU 和 GPU 上領先業界至少15%。
FPGA
FPGA 上的推理框架由服務器研發團隊完成。ResNet18 網絡的推理時間只需要0.174ms,目前已知業內最佳性能。在邊緣計算產品 alibabaedge 上,基于硬件實現的高效算子,推理速度為邊緣 GPU 的兩倍。在后面,我們會結合產品形態整體的介紹這一方案。
GPU
falcon_conv 是機器智能技術團隊開發的一款由 CUDA C++編寫,在 Nvidia GPU 上運行的低精度卷積庫,它接受2份低精度( INT8 )張量作為輸入,將卷積結果以float/int32 數據輸出,同時支持卷積后一些常規操作( scale,batchnorm,relu… )的合并。我們在單張 Tesla P4 GPU 上,對 falcon_conv 的性能與 Nvidia 官方計算庫Cudnn v7.1 做了比較,如圖所示。幾乎所有情況 falcon_conv 都優于 Cudnn ,個別用例有高至5倍的提升,用例選自 RESNET 和 VGG 中耗時較多的卷積參數。
產品化在業務支持過程中我們遇到的第三個問題是集成化,產品化問題。除了手機類場景外,其他線下業務均需要額外的硬件平臺作為支撐。在早先時候,我們更多的是依賴第三方提供的硬件設備,這時候成本,穩定性,可擴展性 成為制約線下項目拓展的幾個主要問題。為了解決這些問題,我們根據以往的項目經驗,對硬件設備進行歸納,沉淀出兩類比較通用的線下產品化方案:智能盒子和一體化相機。每類產品均包含不同型號,以適應不同需求的場景。
智能盒子
我們提供的第一個方案為智能盒子方案。我們可以簡單的把智能盒子當作一個適合于中小型場景的邊緣服務器。盒子本身提供了多種接口,可以外接 usb/ip 相機,語音模塊等傳感器。直接本地部署,數據安全性高。我們針對業務特點提供了高低兩個版本的智能盒子。其中,高端版本采用阿里巴巴自研的邊緣計算產品 Alibaba Edge 。除了完善的硬件設計和高效的推理框架,該盒子還包含完善的編譯器支持,具有非常好的易用性。 低端版本則為純 ARM 的盒子。下面表格給出這兩種盒子在性能,成本和適用場景的一個對比。
在這里我們著重介紹一下阿里巴巴自研的邊緣計算產品 Alibaba Edge,該產品除了具有高達 3TGFlops 的AI計算能力外,相對邊緣 GPU 方案有大幅的價格優勢,同時具有云端一體化部署功能,產品平臺化,可快速上線,支持大規模運維。
在下面的表格中,我們對比了 LRSSD300+MobileNetV2 的不同硬件設備上的運行時間,希望可以給大家一個更直觀的認識。
一體化相機
我們提供的另一個集成方案為一體化相機。一體化相機特別適合云+端的部署模式:線下做相對比較簡單的處理功能,云端則深度處理線下傳回的信息。達到節約帶寬,降低云成本的作用。同時,一體化相機具有方便部署,批量化生產后成本優勢高的特點。目前一體化相機已經作為一個重要的載體形式被應用到我們所承接的對集團外合作項目中。
業務合作在過去的2年間,我們嘗試過多種不同的業務模式。在這里我們會列出主要幾個不同形式的實例。
菜鳥未來園區
在菜鳥未來園區項目中,我們主要負責基礎視覺類算法的輸出,由菜鳥智慧園區團隊同學負責業務算法和工程服務研發工作。經過半年的共同努力,我們先后完成了離崗睡崗檢測,消防通道異常檢測,車位占用檢測,行人越界檢測,入口計數檢測等多個功能。
在項目合作的過程中,我們發現計算單元成本高是制約算法大范圍推廣的一個主要原因。為了解決這個問題,我們聯合了服務器研發團隊,開發出一版定制化軟硬件解決方案:該方案的硬件平臺為我們在上文中提到的邊緣計算產品 Alibaba Edge,同時配備特別定制的高效模型結構和自研的快速檢測算法。新版方案在檢測精度幾乎無損的情況下,推理速度提升了4-5倍,成本相比邊緣 GPU 方案下降了1/2。
模型壓縮加速
我們協助阿里集團不同業務同學完成對已有算法模型的量化瘦身與加速工作。例如:手機端 OCR 識別、手機端物體檢測、手淘實人認證和刷臉登錄/驗證、菜鳥自提柜、阿里體育賽事刷臉入場、神州鷹人臉識別云相冊等。
總結與展望經過近兩年的努力,機器智能技術實驗室線下智能團隊深耕線下智能領域。算法方面:我們在低比特量化、稀疏化、軟硬件協同設計、輕量級網絡設計、端上目標檢測等多個方面取得了一定的積累,多項指標達到了業內最佳水平。工程方面:我們積累出了一套 高靈活性,高數據安全性 的訓練工具 ; 并在合伙伙伴的幫助下,在ARM,FPGA,GPU 等多個平臺下達到了業內最佳的推理性能。產品化方面:我們與合作伙伴一起,研發出適合于不同業務場景的智能盒子與一體化相機。最后,我們很幸運可以在集團內外多個不同形式的業務場景內打磨我們的技術。
閱讀原文
本文來自云棲社區合作伙伴“阿里技術”,如需轉載請聯系原作者。
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/20056.html
摘要:月日,阿里巴巴集團張勇在澳大利亞舉行的商家大會上笑言。年再次追投今年月日,阿里宣布全資收購中天微。截至目前,阿里還投資了寒武紀深鑒耐能翱捷科技等五家芯片公司。根據阿里披露的數據,目前已有近個澳新品牌已入駐天貓。 AI(人工智能)對很多人來說是新事物,但阿里巴巴早已在大規模應用。當大家第一次聽到AI時,我們以為說的是Alibaba intelligence(阿里智能)。4月23日,阿里巴...
摘要:月日,據阿里巴巴披露,雙期間共處理了超萬次語音請求,其中多萬次語音識別請求,超過萬次語音合成請求。智能語音技術的廣泛應用,對于消費者來說最直觀的體驗便是搶紅包從動手變成了動嘴。 摘要: 天貓雙11狂歡節再一次創造了新的商業奇跡,也直接推動了機器智能技術邁向新的高度。 天貓雙11狂歡節再一次創造了新的商業奇跡,也直接推動了機器智能技術邁向新的高度。11月14日,據阿里巴巴披露,雙11...
摘要:下面,我們邀請阿里巴巴淘寶技術部資深技術專家,天貓未來店技術負責人時維,為大家分享天貓未來店背后的技術本文根據云棲大會演講整理而成。總結下來,阿里無人店開發的宗旨就是兩句話首先,技術上我是要追求無人的能力,但不迎合無人的體驗。 showImg(https://segmentfault.com/img/remote/1460000016760894); 今年云棲大會現場一大網紅打卡地莫過...
摘要:在全國知識圖譜與語義計算大會上,阿里巴巴集團副總裁藏經閣計劃阿里負責人墻輝玄難宣布藏經閣計劃首次在阿里應用落地,以及首次披露大規模知識構建技術細節,并從三個方面進行了解讀。 2018年4月,阿里聯合清華大學、浙江大學、中科院自動化所、中科院軟件所、蘇州大學等五家機構,聯合發布藏經閣(知識引擎)研究計劃,同時還宣布打算用一年時間初步建成首個開放的知識引擎服務平臺,服務社會。 在全國知識圖...
閱讀 2687·2023-04-25 17:21
閱讀 2550·2021-11-23 09:51
閱讀 2835·2021-09-24 10:32
閱讀 3767·2021-09-23 11:33
閱讀 1973·2019-08-30 15:44
閱讀 3451·2019-08-30 11:18
閱讀 3517·2019-08-30 10:53
閱讀 621·2019-08-26 13:25