摘要:我們提出了,它是一個(gè)分布式在上可實(shí)現(xiàn)高效通信的架構(gòu)。利用深度程序中的層級模型結(jié)構(gòu)而疊加通信與計(jì)算,這樣以減少突發(fā)性網(wǎng)絡(luò)通信。此外,使用混合的通信方案,并根據(jù)層級屬性和機(jī)器數(shù)量優(yōu)化每一層同步所要求的字節(jié)數(shù)。表神經(jīng)網(wǎng)絡(luò)的評估。
論文:Poseidon: An Efficient Communication Architecture for Distributed Deep Learning on GPU Clusters
論文鏈接:https://arxiv.org/abs/1706.03292
深度學(xué)習(xí)模型在單 GPU 機(jī)器上可能需要花費(fèi)數(shù)周的時(shí)間進(jìn)行訓(xùn)練,因此將深度學(xué)習(xí)分布到 GPU 集群進(jìn)行訓(xùn)練就顯得十分重要了。然而相對于 CPU,擁有更大的吞吐量的 GPU 允許單位時(shí)間內(nèi)處理更多的數(shù)據(jù)批量(batches),因此目前的分布式 DL 因?yàn)榇罅繀?shù)頻繁地在網(wǎng)絡(luò)中進(jìn)行同步而表現(xiàn)不佳。
我們提出了 Poseidon,它是一個(gè)分布式 DL 在 GPU 上可實(shí)現(xiàn)高效通信的架構(gòu)。Poseidon 利用深度程序中的層級模型結(jié)構(gòu)而疊加通信與計(jì)算,這樣以減少突發(fā)性網(wǎng)絡(luò)通信。此外,Poseidon 使用混合的通信方案,并根據(jù)層級屬性和機(jī)器數(shù)量優(yōu)化每一層同步所要求的字節(jié)數(shù)。我們表明 Poseidon 能使 Caffe 和 TensorFlow 在 16 個(gè)單 GPU 機(jī)器上實(shí)現(xiàn) 15.5 倍的加速,而且該實(shí)驗(yàn)還是在有帶寬限制(10GbE)并挑戰(zhàn) VGG19-22K 圖像分類網(wǎng)絡(luò)下完成的。此外,Poseidon 能使 TensorFlow 在 32 個(gè)單 GPU 機(jī)器上運(yùn)行 Inception-V3 達(dá)到 31.5 倍的加速,相比于開源的 TensorFlow 實(shí)現(xiàn) 50% 的性能提升(20 倍加速)。
圖1. 六層卷積神經(jīng)網(wǎng)絡(luò)
圖 2:(a)參數(shù)服務(wù)器和(b)分布式 ML 的充分因子 broadcasting。
圖 3:分布式環(huán)境中的(a)傳統(tǒng)反向傳播和(b)無等待(wait-free)反向傳播。
表 2:用于參數(shù)同步的 Poseidon API。
圖 4:Poseidon 架構(gòu)的概覽。
表 3:神經(jīng)網(wǎng)絡(luò)的評估。其中展示了單結(jié)點(diǎn)批量大小,這些批量大小是基于文獻(xiàn)中的標(biāo)準(zhǔn)報(bào)告而選擇的(通常較大的批量大小正好是 GPU 的內(nèi)存大?。?/p>
圖 5:使用 Poseidon 平行化的 Caffe 和 40GbE 帶寬訓(xùn)練的 GoogLeNet、VGG19 和 VGG19-22K,及它們訓(xùn)練時(shí)的吞吐量變化。單節(jié)點(diǎn) Caffe 設(shè)置為基線(即加速=1)。
圖 6:使用 Poseidon 平行化的 Caffe 和 40GbE 帶寬訓(xùn)練的 Inception-V3、VGG19 和 VGG19-22K,及它們訓(xùn)練時(shí)的吞吐量變化。單節(jié)點(diǎn) TensorFlow 設(shè)置為基線(即加速=1)。
圖 7:在 8 個(gè)節(jié)點(diǎn)上使用不同系統(tǒng)訓(xùn)練三種網(wǎng)絡(luò)的 GPU 計(jì)算分解和延遲時(shí)間。
圖 8:使用 Poseidon 平行化的 Caffe 和不同網(wǎng)絡(luò)帶寬訓(xùn)練的 GoogLeNet、VGG19 和 VGG19-22K,及它們訓(xùn)練時(shí)的吞吐量變化。單節(jié)點(diǎn) Caffe 設(shè)置為基線(即加速=1)。
圖 9:(a)加速 vs. 節(jié)點(diǎn)數(shù)量和(b)使用 Poseidon TensorFlow 與原始 TensorFlow 訓(xùn)練 ResNet-152 的較佳測試誤差 vs. epochs。?
歡迎加入本站公開興趣群商業(yè)智能與數(shù)據(jù)分析群
興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價(jià)值的辦法,實(shí)際應(yīng)用案例分享與討論,分析工具,ETL工具,數(shù)據(jù)倉庫,數(shù)據(jù)挖掘工具,報(bào)表系統(tǒng)等全方位知識(shí)
QQ群:81035754
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://specialneedsforspecialkids.com/yun/4566.html
摘要:在一個(gè)數(shù)據(jù)分析任務(wù)和任務(wù)混合的環(huán)境中,大數(shù)據(jù)分析任務(wù)也會(huì)消耗很多網(wǎng)絡(luò)帶寬如操作,網(wǎng)絡(luò)延遲會(huì)更加嚴(yán)重。本地更新更新更新目前,我們已經(jīng)復(fù)現(xiàn)中的實(shí)驗(yàn)結(jié)果,實(shí)現(xiàn)了多機(jī)并行的線性加速。 王佐,天數(shù)潤科深度學(xué)習(xí)平臺(tái)負(fù)責(zé)人,曾擔(dān)任 Intel亞太研發(fā)中心Team Leader,萬達(dá)人工智能研究院資深研究員,長期從事分布式計(jì)算系統(tǒng)研究,在大規(guī)模分布式機(jī)器學(xué)習(xí)系統(tǒng)架構(gòu)、機(jī)器學(xué)習(xí)算法設(shè)計(jì)和應(yīng)用方面有深厚積累。在...
閱讀 3669·2021-11-23 09:51
閱讀 1660·2021-10-22 09:53
閱讀 1345·2021-10-09 09:56
閱讀 852·2019-08-30 13:47
閱讀 2155·2019-08-30 12:55
閱讀 1596·2019-08-30 12:46
閱讀 1104·2019-08-30 10:51
閱讀 2409·2019-08-29 12:43