[原]海納百川有容乃大：SparkR與Docker的機(jī)器學(xué)習(xí)實(shí)戰(zhàn)

CHENGKANG 發(fā)布于2019-06-28 15:09 / 410人閱讀

摘要：類似包中的功能這很好的解決了的大數(shù)據(jù)級(jí)瓶頸問(wèn)題。也支持分布式的機(jī)器學(xué)習(xí)算法，比如使用機(jī)器學(xué)習(xí)庫(kù)。部署本文將通過(guò)講解如何快速部署容器，并通過(guò)一些簡(jiǎn)單的機(jī)器學(xué)習(xí)例子展示如何使用這個(gè)航母級(jí)別的組合拳。

題圖為美國(guó)尼米茲核動(dòng)力航空母艦

介紹

大數(shù)據(jù)時(shí)代，我們常常面對(duì)海量數(shù)據(jù)而頭疼。作為學(xué)統(tǒng)計(jì)出身的人，我們想折騰大數(shù)據(jù)但又不想學(xué)習(xí)Hadoop或者Java，我們更傾向于把精力放在建模和算法設(shè)計(jì)上，SparkR和Docker的完美結(jié)合，讓R的計(jì)算直接從一架戰(zhàn)斗機(jī)的當(dāng)兵作戰(zhàn)華麗轉(zhuǎn)變?yōu)橐粋€(gè)航空母艦戰(zhàn)斗群！不僅僅簡(jiǎn)化了分布式計(jì)算的操作，還簡(jiǎn)化了安裝部署的環(huán)節(jié)，我們只幾乎不需要做什么改動(dòng)就可以直接運(yùn)用R中的data frame進(jìn)行分布式的計(jì)算。

什么是SparkR

參考前文打造大數(shù)據(jù)產(chǎn)品：Shiny的Spark之旅,我們可以知道，SparkR是一個(gè)為R提供了輕量級(jí)的Spark前端的R包。 SparkR提供了一個(gè)分布式的data frame數(shù)據(jù)結(jié)構(gòu)，解決了 R中的data frame只能在單機(jī)中使用的瓶頸，它和R中的data frame 一樣支持許多操作，比如select,filter,aggregate等等。（類似dplyr包中的功能）這很好的解決了R的大數(shù)據(jù)級(jí)瓶頸問(wèn)題。 SparkR也支持分布式的機(jī)器學(xué)習(xí)算法，比如使用MLib機(jī)器學(xué)習(xí)庫(kù)。

什么是Docker

參考前文打造數(shù)據(jù)產(chǎn)品的快速原型：Shiny的Docker之旅，我們也可以知道，Docker是一種類似于虛擬機(jī)的技術(shù)，主要解決標(biāo)準(zhǔn)化快速部署的問(wèn)題，在Docker中安裝的軟件和主機(jī)中的軟件可以完全隔離，并通過(guò)Daocloud或者h(yuǎn)ub.docker.com等云服務(wù)快速建立Docker倉(cāng)庫(kù)，快速?gòu)?fù)用Docker鏡像。Docker已經(jīng)不僅僅是DevOps人員手中的神器了，每一個(gè)開發(fā)者都應(yīng)該學(xué)會(huì)如何使用Docker。

為什么要結(jié)合SparkR和Docker

SparkR的精髓在于分布式計(jì)算，而Docker的精髓在于標(biāo)準(zhǔn)容器的拓展性，SparkR和Docker的組合充分結(jié)合了二者各自的優(yōu)點(diǎn)，將分布式應(yīng)用底層化繁為簡(jiǎn)，為高層計(jì)算直接暴露接口，給科學(xué)計(jì)算節(jié)省了大量時(shí)間。

部署

本文將通過(guò)Docker講解如何快速部署SparkR－RStudio容器，并通過(guò)一些簡(jiǎn)單的機(jī)器學(xué)習(xí)例子展示如何使用這個(gè)航母級(jí)別的組合拳。

步驟一：安裝Docker和Daocloud

由于國(guó)內(nèi)的鏡像質(zhì)量不夠高，國(guó)外的鏡像下載速度比較慢，出于試驗(yàn)的考慮，建議大家可以嘗試使用Daocloud的鏡像加速服務(wù)。

首先，我們需要在Daocloud注冊(cè)一個(gè)賬號(hào)，然后選擇鏡像加速，根據(jù)指示選擇主機(jī)并安裝Docker和Daocloud加速器。

步驟二：安裝Spark－RStudio

感謝 vinicius85 在GitHub上的開源貢獻(xiàn)，為我們已經(jīng)做好了 Spark1.6+R＋RStduio的鏡像，我們利用daocloud加速拉取鏡像。

dao pull vinicius85/spark-rstudio

以daemon形式運(yùn)行容器，暴露Rstudio－server默認(rèn)的8787端口, 并持久化docker內(nèi)的/srv目錄下的所有文件作為通訊。

docker run -d -v /home/docker:/srv -p 8787:8787 --name sparkrstudio vinicius85/sparkr-rstudio

或者通過(guò)下面最新的方式安裝

docker run -d -p 8787:8787 --name financer index.tenxcloud.com/7harryprince/sparkr-rstudio?

步驟三：配置RStudio登陸賬號(hào)

參考前文 R語(yǔ)言工程化實(shí)踐：RStudio Server環(huán)境快速配置教程

docker exec -d sparkrstudio bash命令表示以daemon形式執(zhí)行容器中的shell腳本

我們?cè)O(shè)置一下RStudio－Server的賬號(hào)密碼

docker exec -d sparkrstudio bash adduser harryzhu # 設(shè)置新用戶名
docker exec -d sparkrstudio bash passwd harryzhu # 設(shè)置該用戶的密碼

步驟四：登陸RStudio

ifconfig命令可以查看到Docker當(dāng)前的IP地址，透過(guò)這個(gè)IP，我們可以訪問(wèn)到RStudio－Server。

比如：

查看資源占用情況

docker stats sparkrstudio

CONTAINER           CPU %               MEM USAGE / LIMIT     MEM %               NET I/O               BLOCK I/O
sparkrstudio        4.50%               481.3 MB / 5.039 GB   9.55%               133.6 kB / 117.4 kB   3.252 MB / 135.2 kB

機(jī)器學(xué)習(xí)示例：

出于演示的考慮，這里引用并稍微改進(jìn)了 tcosta 完成的一個(gè)邏輯回歸的例子：

初始化

使用SparkR之前，我們需要確定，我們的容器內(nèi)存要在2G以上，如果用AWS的乞丐版套裝，馬上就會(huì)報(bào)內(nèi)存不足的錯(cuò)誤。

Error in sparkR.init(master = "local") :
   JVM is not ready after 10 seconds

如果內(nèi)存不足，可以退出docker并且在虛擬機(jī)中重新提高docker的內(nèi)存和cpu的配置。

# 配置環(huán)境變量
Sys.setenv(SPARK_HOME="/opt/spark-1.6.0-bin-hadoop2.6")
 
.libPaths(c(file.path(Sys.getenv("SPARK_HOME"), "R", "lib"), .libPaths()))
 
Sys.setenv(JAVA_HOME="/usr/lib/jvm/java-8-oracle/")

# 加載 SparkR包
library(SparkR)
 
# 初始化RRD
#sc <- sparkR.init(master = "local")
#sqlContext <- sparkRSQL.init(sc)
# spark 2.0 后改為
sc <- sparkR.session(master = "local")

# 創(chuàng)建DataFrame
#mtcarsDF <- createDataFrame(sqlContext, mtcars)
mtcarsDF <- createDataFrame( mtcars)
head(mtcarsDF)

mpg cyl disp  hp drat    wt  qsec vs am gear carb
1 21.0   6  160 110 3.90 2.620 16.46  0  1    4    4
2 21.0   6  160 110 3.90 2.875 17.02  0  1    4    4
3 22.8   4  108  93 3.85 2.320 18.61  1  1    4    1
4 21.4   6  258 110 3.08 3.215 19.44  1  0    3    1
5 18.7   8  360 175 3.15 3.440 17.02  0  0    3    2
6 18.1   6  225 105 2.76 3.460 20.22  1  0    3    1

邏輯回歸

model <- glm(vs ~ mpg + disp + hp + wt , data = mtcarsDF, family = "binomial")# 邏輯回歸
# model <- glm(vs ~ mpg + disp + hp + wt , data = mtcarsDF, family = "gaussian")# 線性回歸
predictions <- predict(model, newData = mtcarsDF )
modelPrediction <- select(predictions, "vs", "prediction")
head(modelPrediction)

 vs prediction
1  0 0.58006945
2  0 0.64060709
3  1 0.72468718
4  1 0.47803842
5  0 0.06070972
6  1 0.54994276

模型評(píng)估

# error變量: 觀測(cè)值和預(yù)測(cè)值的差值
modelPrediction$error <- abs(modelPrediction$vs - modelPrediction$prediction)
 
# modelPrediction 現(xiàn)在對(duì) SQLContext 是可見的
# registerTempTable(modelPrediction, "modelPrediction")
# Spark 2.0 之后api改為
createTempTable(modelPrediction, "modelPrediction")
 
#num_errors <- sql(sqlContext, "SELECT count(error) FROM modelPrediction WHERE error = 1")
#total_errors <- sql(sqlContext, "SELECT count(error) FROM modelPrediction")

num_errors <- sql( "SELECT count(error) FROM modelPrediction WHERE error = 1")
total_errors <- sql( "SELECT count(error) FROM modelPrediction")

# 模型錯(cuò)誤率
training_acc <- collect(num_errors) / collect(total_errors)
training_acc

 _c0
1   0

參考資料

打造數(shù)據(jù)產(chǎn)品的快速原型：Shiny的Docker之旅

R語(yǔ)言工程化實(shí)踐：RStudio Server環(huán)境快速配置教程

打造大數(shù)據(jù)產(chǎn)品：Shiny的Spark之旅

Tiago Vinícius: SparkR 1.5 MLlib Logistic Regression Example

SparkR: Distributed data frames with Spark and R

SparkR R frontend for Spark

劉志強(qiáng), et al. "基于 SparkR 的分類算法并行化研究." Journal of Frontiers of Computer Science and Technology 9.11 (2015): 1281-1294.

用Parallel和foreach包玩轉(zhuǎn)并行計(jì)算

Zeppelin跟SparkR使用spark 1.5+的分析平臺(tái)建置

Fast learn scala

Spark在美團(tuán)的實(shí)踐

作為分享主義者(sharism)，本人所有互聯(lián)網(wǎng)發(fā)布的圖文均遵從CC版權(quán)，轉(zhuǎn)載請(qǐng)保留作者信息并注明作者 Harry Zhu 的 FinanceR專欄:https://segmentfault.com/blog...，如果涉及源代碼請(qǐng)注明GitHub地址：https://github.com/harryprince。微信號(hào): harryzhustudio
商業(yè)使用請(qǐng)聯(lián)系作者。

GPU云服務(wù)器云服務(wù)器機(jī)器學(xué)習(xí)與深度學(xué)習(xí)的區(qū)別機(jī)器學(xué)習(xí)與人的學(xué)習(xí) 實(shí)戰(zhàn)機(jī)器學(xué)習(xí) 機(jī)器學(xué)習(xí)實(shí)戰(zhàn)

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://specialneedsforspecialkids.com/yun/26554.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

CHENGKANG

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

一個(gè)奔四程序員的焦慮

閱讀 952·2021-09-26 09:55
如何上傳東西到虛擬主機(jī)-虛擬主機(jī)怎么上傳文件？

閱讀 3205·2021-09-22 15:36
【NameSilo】最新可用優(yōu)惠碼及商家當(dāng)前促銷域名，.cc域名$3.99，.co域名$2.99

閱讀 2987·2021-09-04 16:48
hivalidity：起步$5/月，1Gbps帶寬，SSD硬盤，可選擇印度VPS（孟買、諾伊達(dá)）/美

閱讀 3147·2021-09-01 11:41
微信小程序教學(xué)第三章（含視頻）：小程序中級(jí)實(shí)戰(zhàn)教程：列表-靜態(tài)頁(yè)面制作

閱讀 2597·2019-08-30 13:49
Google搜索滅霸彩蛋的實(shí)現(xiàn)效果

閱讀 1495·2019-08-29 18:46
函數(shù)節(jié)流和防抖

閱讀 3552·2019-08-29 17:28
HTML-CSS

閱讀 3433·2019-08-29 14:11

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

[原]海納百川有容乃大：SparkR與Docker的機(jī)器學(xué)習(xí)實(shí)戰(zhàn)

相關(guān)文章

[原]解密Airbnb 自助BI神器：Superset 顛覆 Tableau

**SegmentFault 技術(shù)周刊 Vol.5 - Docker丨Build, Ship, Run,**

[原]R語(yǔ)言工程化實(shí)踐：RStudio Server環(huán)境快速配置教程

【全棧之路】JAVA基礎(chǔ)課程一_靜態(tài)變量和接口（20190610v1.0）

發(fā)表評(píng)論

0條評(píng)論

CHENGKANG

男|高級(jí)講師

TA的文章

一個(gè)奔四程序員的焦慮

如何上傳東西到虛擬主機(jī)-虛擬主機(jī)怎么上傳文件？

【NameSilo】最新可用優(yōu)惠碼及商家當(dāng)前促銷域名，.cc域名$3.99，.co域名$2.99

hivalidity：起步$5/月，1Gbps帶寬，SSD硬盤，可選擇印度VPS（孟買、諾伊達(dá)）/美

微信小程序教學(xué)第三章（含視頻）：小程序中級(jí)實(shí)戰(zhàn)教程：列表-靜態(tài)頁(yè)面制作

Google搜索滅霸彩蛋的實(shí)現(xiàn)效果

函數(shù)節(jié)流和防抖

HTML-CSS

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

[原]海納百川 有容乃大：SparkR與Docker的機(jī)器學(xué)習(xí)實(shí)戰(zhàn)

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

[原]海納百川有容乃大：SparkR與Docker的機(jī)器學(xué)習(xí)實(shí)戰(zhàn)