摘要:準(zhǔn)備環(huán)境阿里云容器服務(wù)目前已經(jīng)上線,但是購買按量付費(fèi)的計(jì)算型服務(wù)器需要申請(qǐng)工單開通。總結(jié)我們可以利用阿里云容器服務(wù),輕松的搭建在云端搭建的環(huán)境,運(yùn)行深度學(xué)習(xí)的實(shí)驗(yàn)室,并且利用追蹤訓(xùn)練效果。
摘要: 利用Jupyter開發(fā)TensorFLow也是許多數(shù)據(jù)科學(xué)家的首選,但是如何能夠快速從零搭建一套這樣的環(huán)境,并且配置GPU的使用,同時(shí)支持最新的TensorFLow版本, 對(duì)于數(shù)據(jù)科學(xué)家來說既是復(fù)雜的,同時(shí)也是浪費(fèi)精力的。
簡(jiǎn)介
TensorFLow是深度學(xué)習(xí)和機(jī)器學(xué)習(xí)最流行的開源框架,它最初是由Google研究團(tuán)隊(duì)開發(fā)的并致力于解決深度神經(jīng)網(wǎng)絡(luò)的機(jī)器學(xué)習(xí)研究,從2015年開源到現(xiàn)在得到了廣泛的應(yīng)用。特別是Tensorboard這一利器,對(duì)于數(shù)據(jù)科學(xué)家有效的工作也是非常有效的利器。
Jupyter notebook是強(qiáng)大的數(shù)據(jù)分析工具,它能夠幫助快速開發(fā)并且實(shí)現(xiàn)機(jī)器學(xué)習(xí)代碼的共享,是數(shù)據(jù)科學(xué)團(tuán)隊(duì)用來做數(shù)據(jù)實(shí)驗(yàn)和組內(nèi)合作的利器,也是機(jī)器學(xué)習(xí)初學(xué)者入門這一個(gè)領(lǐng)域的好起點(diǎn)。
利用Jupyter開發(fā)TensorFLow也是許多數(shù)據(jù)科學(xué)家的首選,但是如何能夠快速從零搭建一套這樣的環(huán)境,并且配置GPU的使用,同時(shí)支持最新的TensorFLow版本, 對(duì)于數(shù)據(jù)科學(xué)家來說既是復(fù)雜的,同時(shí)也是浪費(fèi)精力的。在阿里云的Kubernetes集群上,您可以通過簡(jiǎn)單的按鈕提交創(chuàng)建一套完整的TensorFlow實(shí)驗(yàn)環(huán)境,包括Jupyter Notebook開發(fā)模型,利用Tensorboard調(diào)整模型。
準(zhǔn)備Kubernetes環(huán)境
阿里云容器服務(wù)Kubernetes 1.9.3目前已經(jīng)上線,但是購買按量付費(fèi)的GPU計(jì)算型服務(wù)器需要申請(qǐng)ECS工單開通。具體創(chuàng)建過程,可以參考創(chuàng)建Kubernetes集群。
體驗(yàn)通過應(yīng)用目錄部署TensorFlow實(shí)驗(yàn)室
通過Helm部署MPI的應(yīng)用,本文以openmpi為例,向您展示如何快速在容器服務(wù)上運(yùn)行MPI應(yīng)用。實(shí)際上如果需要換成其他MPI實(shí)現(xiàn)只需要替換鏡像即可。
2.1 可以通過應(yīng)用目錄,點(diǎn)擊ack-tensorflow-dev
2.2 點(diǎn)擊參數(shù), 就可以通過修改參數(shù)配置點(diǎn)擊部署
這里的密碼是tensorflow, 您也可以改成您自己設(shè)定的密碼
也可以登錄到Kubernetes master運(yùn)行以下命令
$ helm install --name tensorflow incubator/ack-tensorflow
2.3 運(yùn)行結(jié)束后可以登錄到控制臺(tái),查看tensorflow應(yīng)用啟動(dòng)的狀態(tài)
登錄使用TensorFlow實(shí)驗(yàn)環(huán)境
首先通過ssh登錄Kubernetes集群,查看tensorflow應(yīng)用列表
$ helm list NAME REVISION UPDATED STATUS CHART NAMESPACE tensorflow 1 Thu Apr 12 07:54:59 2018 DEPLOYED ack-tensorflow-dev-0.1.0 default
利用helm status檢查應(yīng)用配置
$ helm status tensorflow
LAST DEPLOYED: Thu Apr 12 07:54:59 2018
NAMESPACE: default
STATUS: DEPLOYED
RESOURCES:
==> v1/Service
NAME TYPE CLUSTER-IP EXTERNAL-IP PORT(S) AGE
tensorflow-ack-tensorflow-dev LoadBalancer 172.19.2.39 10.0.0.1 6006:32483/TCP,80:32431/TCP 13m
==> v1beta2/Deployment
NAME DESIRED CURRENT UP-TO-DATE AVAILABLE AGE
tensorflow-ack-tensorflow-dev 1 1 1 1 13m
NOTES:
Get the application URL by running these commands:
NOTE: It may take a few minutes for the LoadBalancer IP to be available.
You can watch the status of by running "kubectl get svc -w tensorflow-ack-tensorflow-dev"
export SERVICE_IP=$(kubectl get svc --namespace default tensorflow-ack-tensorflow-dev -o jsonpath="{.status.loadBalancer.ingress[0].ip}")
echo http://$SERVICE_IP:
這里可以看到外部SLB的ip是10.0.0.1, Jupyter Notebook的端口為80, Tensorboard為6006。
通過Jupyter訪問端點(diǎn)登錄,本示例中Jupyter的訪問地址是http://10.0.0.1, 輸入前面設(shè)定的密碼點(diǎn)擊登錄, 在本示例中我們?cè)O(shè)定的是tensorflow
點(diǎn)擊Terminal按鈕
在Terminal內(nèi)執(zhí)行nvidia-smi, 可以看到GPU的配置
通過git命令下載tensorflow樣例代碼,
$ git clone https://code.aliyun.com/kuber...
回到主頁您就能看到Tensorflow-Examples已經(jīng)下載到了您的工作目錄
進(jìn)入到 http://10.0.0.1/notebooks/Ten... 運(yùn)行程序
注意:如果您需要用Tensorboard觀測(cè)訓(xùn)練效果請(qǐng)將日志記錄到/output/training_logs下。
以下為訓(xùn)練結(jié)果輸出
這時(shí)您可以登錄Tensorboard查看訓(xùn)練效果, 本示例中Tensorboard的地址為http://10.0.0.1:6006 。 這里您可以看到模型的定義和訓(xùn)練的收斂趨勢(shì)。
總結(jié)
我們可以利用阿里云Kubernetes容器服務(wù),輕松的搭建在云端搭建TensorFlow的環(huán)境,運(yùn)行深度學(xué)習(xí)的實(shí)驗(yàn)室,并且利用TensorBoard追蹤訓(xùn)練效果。歡迎大家使用阿里云上的GPU容器服務(wù),在使用GPU高效計(jì)算的能力同時(shí),比較簡(jiǎn)單和快速的開始模型開發(fā)工作。
原文鏈接
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://specialneedsforspecialkids.com/yun/19731.html
摘要:阿里云彈性計(jì)算作為計(jì)算能力的基礎(chǔ),今年做的最重要的件事。未來阿里云將在這兩件事上,不斷發(fā)力,將普惠的云真正的帶給大家。 摘要: 阿里云研究員褚霸在LC3大會(huì)上同多位業(yè)界資深大咖同臺(tái)交流表示,阿里云發(fā)展到今天,把過去應(yīng)對(duì)淘寶、天貓大規(guī)模計(jì)算以及雙11的計(jì)算能力轉(zhuǎn)換成普惠的能力放在云上,這是一個(gè)非常大的挑戰(zhàn),也是其他廠商沒有經(jīng)歷過的。這些挑戰(zhàn)不斷幫助阿里云積累經(jīng)驗(yàn),提升技術(shù)能力。 6月25...
摘要:騰訊云在年底決定開發(fā)容器產(chǎn)品隨后組建容器技術(shù)團(tuán)隊(duì)并進(jìn)行技術(shù)選型通過對(duì)不同編排工具的分析對(duì)比最終選擇作為容器編排引擎并且迅速在年初推出容器解決方案為用戶提供托管的一站式服務(wù)。但是騰訊云最終選擇了現(xiàn)在看來這個(gè)選擇無比正確。Kubernetes 很火,一大批互聯(lián)網(wǎng)公司早已領(lǐng)先一步,搭建起專有的 PaaS平臺(tái),傳統(tǒng)企業(yè)們看到的 Kubernetes的趨勢(shì),亦不甘落后,在試水的道上一路狂奔。雖然,Ku...
摘要:年月日,由以下簡(jiǎn)稱主辦的第三屆企業(yè)容器創(chuàng)新大會(huì)以下簡(jiǎn)稱在北京喜來登大酒店盛大舉行。在未來,希望能為中國用戶帶來更多更實(shí)用的容器技術(shù),推動(dòng)中國企業(yè)容器化的持續(xù)創(chuàng)新。 2019年6月20日,由Rancher Labs(以下簡(jiǎn)稱Rancher)主辦的第三屆企業(yè)容器創(chuàng)新大會(huì)(Enterprise Container Innovation Conference, 以下簡(jiǎn)稱ECIC)在北京喜來登大...
摘要:華為云華為云在云原生這場(chǎng)游戲中,最具競(jìng)爭(zhēng)力的玩家之一。年,金山云在云原生領(lǐng)域推出了三款重磅產(chǎn)品星曜裸金屬服務(wù)器云服務(wù)器和云盤。在線上智博會(huì)上,浪潮云發(fā)布了經(jīng)過全新迭代升級(jí)的浪潮云,進(jìn)一步提升平臺(tái)云原生服務(wù)能力。面對(duì)數(shù)字時(shí)代復(fù)雜系統(tǒng)的不確定性,傳統(tǒng)的 IT 應(yīng)用架構(gòu)研發(fā)交付周期長(zhǎng)、維護(hù)成本高、創(chuàng)新升級(jí)難,煙囪式架構(gòu),開放性差、組件復(fù)用度低,這些都成為了企業(yè)業(yè)務(wù)快速增長(zhǎng)的瓶頸。而云原生以其敏捷、...
摘要:將用戶命令通過接口傳送給,從而進(jìn)行資源的增刪改等操作。要使用編寫應(yīng)用程序,當(dāng)下大多語言都可以很方便地去實(shí)現(xiàn)請(qǐng)求來操作的接口從而控制和查詢資源,但本文主要是利用已有的客戶端來更加優(yōu)雅地實(shí)現(xiàn)的資源控制。 showImg(https://segmentfault.com/img/remote/1460000013517345); 【利用K8S技術(shù)棧打造個(gè)人私有云系列文章目錄】 利用K8S...
閱讀 2584·2023-04-25 20:50
閱讀 3929·2023-04-25 18:45
閱讀 2213·2021-11-17 17:00
閱讀 3323·2021-10-08 10:05
閱讀 3073·2019-08-30 15:55
閱讀 3487·2019-08-30 15:44
閱讀 2355·2019-08-29 13:51
閱讀 1111·2019-08-29 12:47