GPU訓練機器學習模型哪家強？AWS、谷歌云、IBM等6大平臺對比

史占廣發布于2019-04-25 18:24 / 1122人閱讀

摘要：在低端領域，在上訓練模型的價格比便宜兩倍。硬件定價價格變化頻繁，但目前提供的實例起價為美元小時，以秒為增量計費，而更強大且性能更高的實例起價為美元小時。

隨著越來越多的現代機器學習任務都需要使用GPU，了解不同GPU供應商的成本和性能trade-off變得至關重要。

初創公司Rare Technologies最近發布了一個超大規模機器學習基準，聚焦GPU，比較了幾家受歡迎的硬件提供商，在機器學習成本、易用性、穩定性、可擴展性和性能等方面的性能。

在6大GPU硬件平臺上，執行Twitter情緒分類任務（大約150萬條推文，4個時期），訓練雙向LSTM的成本。由上圖可知，專用服務器是控制成本的較佳選擇。

這項基準測試橫向比較了以下硬件平臺：亞馬遜AWS EC2，谷歌Google Cloud Engine GCE，IBM Softlayer，Hetzner，Paperspace，以及LeaderGPU，這些硬件提供商都在這項測試期間提供了credits和支持。基準發布時，微軟Azure官方還沒有回應，因此很遺憾沒有納入比較。

不過，這項測試還是涵蓋各種不同類型的GPU平臺：提供虛擬機的（AWS，GCE），裸機基礎設施（Softlayer），專用服務器（Hetzner）和專門提供GPUaaS的（LeaderGPU，Paperspace），也算很全面。研究人員也表示，他們希望通過測試，看看高端GPU是否更真的值價。

先說結果，經過這個測試后他們發現：

*這些是多GPU實例的結果，使用multi_gpu_model的multi_gpu_model函數在所有GPU上訓練模型，后來發現對多GPU利用率不足。?

**由于上述原因，這些GPU模型僅使用多GPU種的其中一個進行訓練。?

+ Hzzner是按月收費，提供專用服務器。

基準設置：Twitter文本情緒分類任務

接下來，我們將詳細討論和比較所有的平臺，以及這項測試的情況。

任務這項基準使用的是情緒分類任務（sentiment classification task [1]）。具體說，訓練雙向LSTM來對Twitter的推文做二元分類。算法的選擇并不是很重要，作者Shiva Manne表示，他對這個基準測試的真正要求，是這項任務是否應該是GPU密集型的。為了確保GPU的較大利用率，他使用了由CuDNN（ CuDNNLSM層）支持的Keras快速LSTM實現。

數據集 Twitter情緒分析數據集（Twitter Sentiment Analysis Dataset [2]），包含1,578,627條分過類的推文，每行用“1”標記為積極情緒，“0”表示消極情緒。模型對90％（shuffled）數據進行了4個epoch的訓練，剩下的10％用于模型評估。

Docker 為了可重復性，他們創建了一個Nvidia Docker鏡像，其中包含重新運行此基準測試所需的所有依賴項和數據。Dockerfile和所有必需的代碼可以在這個Github[3]庫中找到。

訂購和使用：LeaderGPU、AWS、Paperspace尤其適合初學者

在LeaderGPU和Paperspace上的訂購過程非常順暢，沒有任何復雜的設置（settings）。與AWS或GCE相比，Paperspace和LeaderGPU的供應時間要稍長一些（幾分鐘）。

LeaderGPU，Amazon和Paperspace提供免費的深度學習機器圖像（Deep Learning Machine Images），這些圖像預安裝了Nvidia驅動程序，Python開發環境和Nvidia-Docker，基本上立即就能啟動實驗。這讓事情變得容易很多，尤其是對于那些只希望嘗試機器學習模型的初學者。但是，為了評估定制實例滿足個性化需求的難易程度，Manne從零開始（除了LeaderGPU），設置了所有的東西。在這個過程中，他發現了各家平臺常見的一些問題，例如NVIDIA驅動與安裝的gcc版本不兼容，或者在安裝驅動之后，沒有證據表明正在運行程序，但GPU的使用率卻達到100％。?

意外的是，在Paperspace低端實例（P6000）上運行Docker導致錯誤，這是由由Docker上的Tensorflow是由源優化（MSSE，MAVX，MFMA）構建的，而Paperspace實例不支持。在沒有這些優化的情況下運行Docker可以解決這個問題。

至于穩定性，各家表現都很好，沒有遇到任何問題。

成本：專用服務器是控制成本的較佳選擇；更便宜的GPU性價比更高

不出所料，專用服務器是控制成本的較佳選擇。這是因為Hetzner按月收費，這意味著每小時的價格非常低，而且這個數字是按比例分攤的。所以，只要你的任務足夠多，讓服務器不會閑著，選擇專用服務器就是正確的。

在虛擬機供應商中，Paperspace是明顯的贏家。在低端GPU領域，在Paperspace上訓練模型的價格比AWS便宜兩倍（$1.6 vs $3.3）。Paperspace進一步顯示了，在高端GPU部分也有類似的成本效益模式。

剛才你可能已經看過這張圖了，不過配合這里討論的話題，再看一次：

基準測試結果：在各種GPU硬件平臺上對Twitter情緒分類任務（大約150萬條推文，4個時期）進行雙向LSTM訓練的成本。

在AWS和GCE之間，低端GPU是AWS稍貴（$3.3 vs $2.4），但在高端GPU領域則反了過來（$3.3 vs $3.4）。這意味著，選高端GPU，AWS可能更好，多付出的那部分價錢或許能收到回報。

需要指出，IBM Softlayer和LeaderGPU看起來很貴，主要是由于其多GPU實例的利用率不足。這項基準測試使用Keras框架進行，因此多GPU實現的效率驚人地低，有時甚至比同一臺機器上運行的單個GPU更差。而這些平臺都不提供單個的GPU實例。在Softlayer上運行的基準測試使用了所有可用的GPU，使用multi_gpu_model的multi_gpu_model函數，而multi_gpu_model上的測試只使用了一個可用的GPU。這導致資源利用不足，產生了很多的額外成本。

另外，LeaderGPU提供了更強大的GPU GTX 1080 Ti和Tesla V100，價格卻與GTX 1080和Tesla P100相同（每分鐘）。在這些服務器上運行，肯定會降低整體成本。綜上，LeaderGPU在圖表中，低端GPU成本部分，實際上是相當合理的。如果你打算使用非Keras框架，更好地利用多個GPU時，記住這些很重要。

另外還有一個大趨勢，更便宜的GPU比更貴的GPU性價比更高，這表明訓練時間的減少，并不能抵消總成本的增加。

使用Keras做多GPU訓練模型：加速難以預測

既然也說到了使用Keras訓練多GPU模型，就多說幾句。

很多學術界和產業界人士非常喜歡使用像Keras這樣的高級API來實現深度學習模型。Keras本身也很流行，接受度高，迭代更新也快，用戶會以為使用Keras就不需要任何額外處理，能加快轉換到多GPU模型。

但實際情況并非如此，從下圖可以看出。?

加速相當難以預測，與“雙P100”服務器上的單GPU訓練相比，“雙GTX 1080”服務器顯然有了加速，但多GPU訓練卻花費了更長的時間。這種情況在一些博客和Github issue中都有提出，也是Manne在調查成本過程中遇到的值得注意的問題。

模型精準度、硬件定價、現貨測評及體驗感受

模型精準度

我們在訓練結束時對模型最終的精度做了完整性測試，從表1可以看出，底層硬件/平臺對訓練質量沒有影響，基準設置正確。

硬件定價

GPU價格變化頻繁，但目前AWS提供的K80 GPU（p2實例）起價為0.9美元/小時，以1秒為增量計費，而更強大且性能更高的Tesla V100 GPU（p3實例）起價為3.06美元/小時。數據傳輸、彈性IP地址和EBS優化實例等附加服務需要支付額外費用。 GCE是一種經濟的替代方案，它可以按照0.45美元/小時和1.46美元/小時的價格分別提供K80和P100。這些收費以一秒為增量，并通過基于折扣的使用有可觀的獎勵。盡管與AWS不同，它們需要附加到CPU實例（n1-standard-1，價格為0.0475美元/小時）。

Paperspace在低成本的聯盟中與GCE競爭，專用GPU有Quadro M4000，0.4美元/小時，也有2.3美元/小時的Tesla V100。除了慣常的小時費外，他們還要收取月租費（每月5美元），服務包括儲存和維修。以毫秒為基礎的論文空間賬單，附加服務可以以補充成本獲得。 Hetzner每月僅提供一臺配備GTX 1080的專用服務器，并額外支付一次設置費用。

IBM Softlayer是市場上為數不多的每月和每小時提供帶有GPU的裸機服務器的平臺之一。它提供3個GPU服務器（包含特斯拉M60s和K80s），起價為2.8美元/小時。這些服務器具有靜態配置，這意味著與其他云提供商相比，其定制可能性有限。以小時為單位的軟計算結果也是非常糟糕的，而且對于短時間運行的任務而言可能更昂貴。

LeaderGPU是一個相對較新的玩家，它提供了多種GPU（P100s，V100s，GTX1080s，GTX1080Ti）的專用服務器。用戶可以利用按秒計費的每小時或每分鐘定價。服務器至少有2個GPU，最多8個GPU，價格從0.02歐元/分鐘到0.08歐元/分鐘。

現貨/搶先實例

某些平臺在其備用計算容量（AWS spot實例和GCE的搶先實例）上提供了顯著的折扣（50％-90％），盡管它們隨時可能意外終止。這會導致高度不可預測的訓練時間，因為不能保證實例何時再次啟動。對于可以處理這種終端但是有許多任務的應用程序來說，這很好，而時間限制的項目在這種情況下不會很好（特別是如果考慮浪費的勞動時間）。

在搶先實例上運行任務需要額外的代碼來優雅地處理實例的終止和重新啟動（檢查點/將數據存儲到永久磁盤等）。此外，價格波動可能導致成本在很大程度上取決于基準運行時的產能供求。這將需要多次運行來平均成本。鑒于在完成基準測試時所花的時間有限，我沒有以現場/先發實例為基準。

體驗評論

Paperspace似乎在性能和成本方面領先一步，尤其適合希望深度學習技術的實驗在另一個基準測試中得出類似的結論。

專用服務器（如LeaderGPU提供的服務器）和裸機服務器（如Hetzner）適合考慮長期使用這些資源（doh）的用戶。但請注意，由于在定制服務器方面靈活性較差，因此請確保您的任務具有高度的CPU / GPU密集度以真正感受物超所值。

像Paperspace和LeaderGPU這樣的新玩家不應該被解雇，因為他們可以幫助削減大部分的成本。由于相關的慣性和轉換成本，企業可能不愿意切換提供商，但這些小型平臺值得考慮。

AWS和GCE對于尋求與其他服務集成的用戶來說是非常棒的選擇（AI集成 - 亞馬遜的Rekognition，Google的Cloud AI）。

除非你計劃需要幾天完成任務，否則堅持一個低端的單個GPU實例是較好的選擇。

更高端的GPU運行更快，但實際上投資回報率更差。只有在較短的訓練時間（較少的研發周期）比硬件成本更重要時，才應該選擇這些方案。

原文鏈接：

https://rare-technologies.com/machine-learning-benchmarks-hardware-providers-gpu-part-2/

參考資料：

[1] http://thinknook.com/twitter-sentiment-analysis-training-corpus-dataset-2012-09-22/

[2] http://deeplearning.net/tutorial/lstm.html

[3] https://github.com/RaRe-Technologies/benchmark_GPU_platforms

歡迎加入本站公開興趣群

商業智能與數據分析群

興趣范圍包括各種讓數據產生價值的辦法，實際應用案例分享與討論，分析工具，ETL工具，數據倉庫，數據挖掘工具，報表系統等全方位知識

QQ群：81035754

GPU云服務器云服務器谷歌云服務器機器學習機器學習云服務器哪家好6 機器學習平臺對比谷歌云平臺

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://specialneedsforspecialkids.com/yun/4734.html

有助于機器學習的7個云計算服務

摘要：用于機器學習人工智能數據分析的基于云計算的工具日前增多。亞馬遜公司創建了，以簡化使用其機器學習工具的工作。用于機器學習、人工智能、數據分析的基于云計算的工具日前增多。其中的一些應用是在基于云計算的文檔編輯和電子郵件，技術人員可以通過各種設備登錄中央存儲庫，并在遠程位置，甚至在路上或海灘上進行工作。云計算可以處理文件備份和同步，簡化工作流程。數據分析是很多組織在云計算平臺進行的一項主要計算工作...

stonezhu 2019-04-30 14:35 評論0 收藏0
谷歌：誰擁有下一代云平臺的DNA？機器學習和云端智能是云的未來

摘要：關于請點擊這里隨著谷歌新機器學習平臺的首次展示，等于在這片沙地上首次插入了這面旗幟，后續會有比如，的等等有著高級機器學習和云基礎設施的公司比如紛至沓來。在NEXT2016會議上，Google的Eric Schmidt提到Google所占最大的優勢之一就是站在云計算下一個十年的前沿。它不是基礎設施或者軟件，也不像純數據一樣簡單。 Crowdsourced 智能，是個進化，可以創建更加智...

joywek 2019-08-14 15:22 評論0 收藏0
谷歌：誰擁有下一代云平臺的DNA？機器學習和云端智能是云的未來

摘要：關于請點擊這里隨著谷歌新機器學習平臺的首次展示，等于在這片沙地上首次插入了這面旗幟，后續會有比如，的等等有著高級機器學習和云基礎設施的公司比如紛至沓來。在NEXT2016會議上，Google的Eric Schmidt提到Google所占最大的優勢之一就是站在云計算下一個十年的前沿。它不是基礎設施或者軟件，也不像純數據一樣簡單。 Crowdsourced 智能，是個進化，可以創建更加智...

Paul_King 2019-07-24 18:37 評論0 收藏0
亞馬遜AWS仍處霸主地位，為何卻要祭出AI芯片這一大殺招？

摘要：亞馬遜也宣布推出，這是一款完全自主的規模賽車，旨在幫助開發人員學習機器學習。此次問世，更是亞馬遜要進一步占領市場的節奏。那么，面對已經發布芯片的谷歌云阿里云或者華為云，亞馬遜真的要祭出大殺招，不戰不休了。本周，亞馬遜AWS re：Invent 2018大會在拉斯維加斯舉辦，AWS首席執行官Andy Jassy在會上發布了一款名為Inferentia的首款云端AI芯片。他表示，Inferent...

BingqiChen 2019-04-29 17:50 評論0 收藏0
深度解析：AWS等云計算巨頭2018將會有哪些布局？

摘要：谷歌公司公布了其年的云計算市場收入。公司對其云計算市場收入進行了詳細記錄并且認為自治功能和數據即服務是與其他公有云服務商最大的差異。用戶的采用率公司對行業廠商的名受訪者進行的調查表明和微軟是業界公認的兩大頂級公有云服務商。近來,公司規模已經不再是企業選擇云服務商的重要因素,市場對云服務商優劣的判斷有了多種標準。企業對全球一些大型云計算服務商(例如亞馬遜AWS,谷歌云平臺,IBM Cloud和...

TANKING 2019-04-30 11:35 評論0 收藏0