摘要:作為阿里云大數(shù)據(jù)旗艦產(chǎn)品,的級(jí)別性能處理達(dá)到了全球領(lǐng)先性,被評(píng)為全球云端數(shù)據(jù)倉庫領(lǐng)導(dǎo)者。天弘基金天弘基金旗下的余額寶,是中國規(guī)模最大的貨幣基金。場(chǎng)景二阿里云產(chǎn)品消費(fèi)賬單分析準(zhǔn)備工作完成案例中準(zhǔn)備工作步驟。
摘要: 一、 MaxCompute是什么 你的OSS數(shù)據(jù)是否作堆積在一旁沉睡已久存儲(chǔ)成本變?yōu)槠髽I(yè)負(fù)擔(dān)你是否想喚醒沉睡的數(shù)據(jù)驅(qū)動(dòng)你的業(yè)務(wù)前行MaxCompute可以幫助你高效且低成本的解決這些問題通過對(duì)海量數(shù)據(jù)進(jìn)行分析和計(jì)算來實(shí)現(xiàn)勾勒用戶畫像、提升營銷轉(zhuǎn)化、挖掘產(chǎn)品優(yōu)化方向、預(yù)測(cè)業(yè)務(wù)發(fā)展等豐富的業(yè)務(wù)場(chǎng)景。
一、 MaxCompute是什么?
你的OSS數(shù)據(jù)是否作堆積在一旁沉睡已久,存儲(chǔ)成本變?yōu)槠髽I(yè)負(fù)擔(dān)?你是否想喚醒沉睡的數(shù)據(jù),驅(qū)動(dòng)你的業(yè)務(wù)前行?MaxCompute可以幫助你高效且低成本的解決這些問題,通過對(duì)海量數(shù)據(jù)進(jìn)行分析和計(jì)算來實(shí)現(xiàn)勾勒用戶畫像、提升營銷轉(zhuǎn)化、挖掘產(chǎn)品優(yōu)化方向、預(yù)測(cè)業(yè)務(wù)發(fā)展等豐富的業(yè)務(wù)場(chǎng)景。
MaxCompute是一項(xiàng)提供快速、完全托管的EB級(jí)數(shù)據(jù)倉庫解決方案的大數(shù)據(jù)計(jì)算服務(wù),可以高效并經(jīng)濟(jì)的分析處理海量數(shù)據(jù)。作為阿里云大數(shù)據(jù)旗艦產(chǎn)品,MaxCompute的EB級(jí)別性能處理達(dá)到了全球領(lǐng)先性,被Forrester評(píng)為全球云端數(shù)據(jù)倉庫領(lǐng)導(dǎo)者。同時(shí),MaxCompute也是阿里巴巴內(nèi)部大數(shù)據(jù)旗艦平臺(tái),阿里巴巴近99%的數(shù)據(jù)存儲(chǔ)以及95%的計(jì)算能力都在這個(gè)平臺(tái)上產(chǎn)生。
最近MaxCompute重磅推出了一項(xiàng)重要特性:OSS外表查詢功能。該功能可以幫助您直接對(duì)OSS中的海量文件進(jìn)行查詢,而不必將數(shù)據(jù)加載到MaxCompute 表中,既節(jié)約了數(shù)據(jù)搬遷的時(shí)間和人力,也節(jié)省了多地存儲(chǔ)的成本。除此之外,MaxCompute外表查詢功能還擁有如下的優(yōu)勢(shì):
1、MaxCompute是一個(gè)無服務(wù)器的分布式計(jì)算架構(gòu),無需用戶再額外維護(hù)和管理服務(wù)器基礎(chǔ)設(shè)施,能方便及時(shí)的為OSS用戶提供臨時(shí)按需的查詢服務(wù),從而大大幫助企業(yè)節(jié)省成本。目前該功能處于公測(cè)階段,免費(fèi)使用;
2、支持處理OSS上開源格式的結(jié)構(gòu)化文件,包括:Avro、CSV、ORC、Parquet、RCFile、RegexSerDe、SequenceFile和TextFile,同時(shí)支持gzip壓縮格式;
3、提供靈活的用戶自定義代碼的處理框架,用來支持處理OSS上非結(jié)構(gòu)化文件,用戶可以自行編寫代碼直接對(duì)OSS上的數(shù)據(jù)進(jìn)行處理和計(jì)算。比如對(duì)OSS上的視頻,圖像,音頻,基因,氣象等數(shù)據(jù)進(jìn)行特征提取和分析,可以支持豐富的第三方音視頻處理庫;
二、 客戶案例
1、華大基因
基因技術(shù)從實(shí)驗(yàn)室逐漸進(jìn)入生活場(chǎng)景,數(shù)據(jù)體量爆發(fā)式增長,遠(yuǎn)超出傳統(tǒng)計(jì)算能力所能支持的范圍。基于這樣的背景,華大選擇了MaxCompute。在百萬人基因組項(xiàng)目中,對(duì)人群結(jié)構(gòu)的分析,oss存放了大量的fastq文件,傳統(tǒng)計(jì)算方式需3-5天,且需要將數(shù)據(jù)同步到數(shù)據(jù)倉庫,現(xiàn)在通過外表功能,MaxCompute可使整個(gè)分析在1小時(shí)內(nèi)完成,極大加速了數(shù)據(jù)吞吐和交付生產(chǎn)效率。
2、天弘基金
天弘基金旗下的余額寶,是中國規(guī)模最大的貨幣基金。除理財(cái)功能外,余額寶還是移動(dòng)互聯(lián)網(wǎng)時(shí)代的現(xiàn)金管理工具。余額寶每天有大量的金融數(shù)據(jù)交換文件存放在oss上,需要進(jìn)行超大文本文件的結(jié)構(gòu)化分析,之前是把oss文件先下載到本地,然后再上傳到MaxCompute,鏈路長且效率不高。現(xiàn)在oss上的大文件可以直接用外部表的方式加載到MaxCompute做分析,整個(gè)鏈路的效率得到了大幅提升。
三、 如何使用MaxCompute?
下面我們通過兩個(gè)簡單的示例,介紹如何通過MaxCompute外表功能實(shí)現(xiàn)對(duì)OSS數(shù)據(jù)的分析和處理。
場(chǎng)景一:物聯(lián)網(wǎng)采集數(shù)據(jù)分析
Step1:準(zhǔn)備工作
1、開通OSS 、MaxCompute服務(wù)
您可以通過官網(wǎng)分別開通OSS、MaxCompute服務(wù),并創(chuàng)建OSS bucket、MaxCompute Project。
2、采集數(shù)據(jù)到OSS
您可以使用任何數(shù)據(jù)集來執(zhí)行測(cè)試,以驗(yàn)證我們?cè)谶@篇文章中概述的最佳實(shí)踐。
本文準(zhǔn)備一批 CSV 數(shù)據(jù)存在 OSS 上,endpoint 為oss-cn-beijing-internal.aliyuncs.com,bucket 為oss-odps-test,數(shù)據(jù)文件的存放路徑為/demo/vehicle.csv。
3、授權(quán)MaxCompute訪問OSS
MaxCompute需要直接訪問OSS的數(shù)據(jù),前提需要將OSS的數(shù)據(jù)相關(guān)權(quán)限賦給MaxCompute的訪問賬號(hào),可以直接登錄阿里云賬號(hào)后,點(diǎn)擊此處完成一鍵授權(quán)。
Step2:通過MaxCompute創(chuàng)建外部表
創(chuàng)建外部表,語句如下:
CREATE EXTERNAL TABLE IF NOT EXISTS ambulance_data_csv_external
(
vehicleId int,
recordId int,
patientId int,
calls int,
locationLatitute double,
locationLongtitue double,
recordTime string,
direction string
)
STORED BY "com.aliyun.odps.CsvStorageHandler"
LOCATION "oss://oss-cn-beijing-internal.aliyuncs.com/oss-odps-test/Demo/";
Step3:通過MaxCompute查詢外部表
外部表創(chuàng)建成功后,便可如同普通表一樣使用這個(gè)外部表。假設(shè)/demo/vehicle.csv數(shù)據(jù)如下:
1,1,51,1,46.81006,-92.08174,9/14/2014 0:00,S
1,2,13,1,46.81006,-92.08174,9/14/2014 0:00,NE
1,3,48,1,46.81006,-92.08174,9/14/2014 0:00,NE
1,4,30,1,46.81006,-92.08174,9/14/2014 0:00,W
1,5,47,1,46.81006,-92.08174,9/14/2014 0:00,S
1,6,9,1,46.81006,-92.08174,9/14/2014 0:00,S
1,7,53,1,46.81006,-92.08174,9/14/2014 0:00,N
1,8,63,1,46.81006,-92.08174,9/14/2014 0:00,SW
1,9,4,1,46.81006,-92.08174,9/14/2014 0:00,NE
10.? 1,10,31,1,46.81006,-92.08174,9/14/2014 0:00,N
執(zhí)行如下 SQL 語句:
select recordId, patientId, direction from ambulance_data_csv_external where patientId > 25;
輸出結(jié)果如下:
| recordId | patientId | direction |
| 1 | 51 | S |
| 3 | 48 | NE |
| 4 | 30 | W |
| 5 | 47 | S |
| 7 | 53 | N |
| 8 | 63 | SW |
10.? | 10 | 31 | N |
11.? +------------+------------+-----------+
關(guān)于更多詳細(xì)的OSS外表使用方法,請(qǐng)參考官方文檔,點(diǎn)這里。
場(chǎng)景二:阿里云產(chǎn)品消費(fèi)賬單分析
Step1:準(zhǔn)備工作
完成案例1中準(zhǔn)備工作1、3步驟。
Step2:通過費(fèi)用中心同步賬單數(shù)據(jù)到OSS
打開費(fèi)用中心->消費(fèi)記錄->存儲(chǔ)到OSS,輸入oss bucket,此示例為oms-yl
,服務(wù)開通后,每天會(huì)將增量的實(shí)例消費(fèi)明細(xì)數(shù)據(jù)生成文件同步存儲(chǔ)到您的OSS指定的bucket中。
Step3:通過MaxCompute注冊(cè)賬單處理類
1、點(diǎn)擊這里下載,odps-udf-example-0.30.0-SNAPSHOT-jar-with-dependencies.jar
2、將自定義代碼編譯打包,并上傳到 MaxCompute。
add jar odps-udf-example-0.30.0-SNAPSHOT-jar-with-dependencies.jar
Step4:通過MaxCompute創(chuàng)建外部表
示例:創(chuàng)建5月4日的賬單消費(fèi)表
CREATE EXTERNAL TABLE IF NOT EXISTS oms_oss_0504
(
月份 string,
資源擁有者 string,
消費(fèi)時(shí)間 string,
消費(fèi)類型 string,
賬單編號(hào) string,
商品 string,
計(jì)費(fèi)方式 string,
服務(wù)開始時(shí)間 string,
服務(wù)結(jié)束時(shí)間 string,
服務(wù)時(shí)長 string,
財(cái)務(wù)核算單元 string,
資源id string,
資源昵稱 string,
TAG string,
地域 string,
可用區(qū) string,
公網(wǎng)ip string,
內(nèi)網(wǎng)ip string,
資源配置 string,
原價(jià) string,
優(yōu)惠金額 string,
應(yīng)付金額 string,
計(jì)費(fèi)項(xiàng)1 string,
使用量1 string,
資源包扣除1 string,
原價(jià)1 string ,
應(yīng)付金額1 string,
計(jì)費(fèi)項(xiàng)2 string,
使用量2 string,
資源包扣除2 string,
原價(jià)2 string,
應(yīng)付金額2 string,
計(jì)費(fèi)項(xiàng)3 string,
使用量3 string,
資源包扣除3 string,
原價(jià)3 string,
應(yīng)付金額3 string,
計(jì)費(fèi)項(xiàng)4 string,
使用量4 string,
資源包扣除4 string,
原價(jià)4 string,
應(yīng)付金額4 string,
計(jì)費(fèi)項(xiàng)5 string,
使用量5 string,
資源包扣除5 string,
原價(jià)5 string,
應(yīng)付金額5 string,
計(jì)費(fèi)項(xiàng)6 string,
使用量6 string,
資源包扣除6 string,
原價(jià)6 string,
應(yīng)付金額6 string,
計(jì)費(fèi)項(xiàng)7 string,
使用量7 string,
資源包扣除7 string,
原價(jià)7 string,
應(yīng)付金額7 string,
計(jì)費(fèi)項(xiàng)8 string,
使用量8 string,
資源包扣除8 string,
原價(jià)8 string,
應(yīng)付金額8 string,
計(jì)費(fèi)項(xiàng)9 string,
使用量9 string,
資源包扣除9 string,
原價(jià)9 string,
應(yīng)付金額9 string
)
STORED BY "com.aliyun.odps.udf.example.text.TextStorageHandler" --STORED BY 指定自定義 StorageHandler 的類名。
with SERDEPROPERTIES (
"odps.text.option.complex.text.enabled"="true",
"odps.text.option.strict.mode"="false"
--遇到列數(shù)不一致的情況不會(huì)拋異常,如果實(shí)際列數(shù)少于schema列數(shù),將所有列按順序匹配,剩下的不足的列補(bǔ)NULL
)
LOCATION "oss://oss-cn-beijing-internal.aliyuncs.com/oms-yl/2018-05-04/"
USING "text_oss.jar"; --同時(shí)需要指定賬單中的文本處理類定義所在的 jar 包
Step5:通過MaxCompute查詢外部表
查詢示例:查詢MaxCompute按量存儲(chǔ)消費(fèi)賬單
select 月份,使用量3,原價(jià)3,應(yīng)付金額3 from oms_oss
where 計(jì)費(fèi)項(xiàng)3="Storage" and 商品=大數(shù)據(jù)計(jì)算服務(wù)MaxCompute(按量付費(fèi));
輸出結(jié)果如下:
四、 總結(jié)
通過上述示例,將沉睡在OSS中的非結(jié)構(gòu)化數(shù)據(jù)激活,通過MaxCompute把海量數(shù)據(jù)分析工作效率提升至分鐘級(jí),幫助客戶更高效、更低成本的挖掘海量數(shù)據(jù)價(jià)值。
原文鏈接
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://specialneedsforspecialkids.com/yun/11875.html
摘要:點(diǎn)擊訂閱云棲夜讀周刊是阿里級(jí)計(jì)算平臺(tái),經(jīng)過十年磨礪,它成為阿里巴巴集團(tuán)數(shù)據(jù)中臺(tái)的計(jì)算核心和阿里云大數(shù)據(jù)的基礎(chǔ)服務(wù)。【點(diǎn)擊訂閱云棲夜讀周刊】 MaxCompute 是阿里EB級(jí)計(jì)算平臺(tái),經(jīng)過十年磨礪,它成為阿里巴巴集團(tuán)數(shù)據(jù)中臺(tái)的計(jì)算核心和阿里云大數(shù)據(jù)的基礎(chǔ)服務(wù)。 熱點(diǎn)熱議 阿里靠什么支撐 EB 級(jí)計(jì)算力? 作者:技術(shù)小能手?發(fā)表在:阿里技術(shù) Tablestore Timestream:為海...
摘要:摘要參考消息網(wǎng)月日?qǐng)?bào)道日前,全球權(quán)威調(diào)研機(jī)構(gòu)佛瑞斯特研究公司發(fā)布年一季度云端數(shù)據(jù)倉庫報(bào)告。阿里云成為唯一入選的中國科技公司。憑借其年的產(chǎn)品成熟度技術(shù)領(lǐng)先性及一站式的大數(shù)據(jù)開發(fā)解決方案,成為云端數(shù)據(jù)倉庫市場(chǎng)的領(lǐng)導(dǎo)者。 摘要: 參考消息網(wǎng)3月19日?qǐng)?bào)道 日前,全球權(quán)威調(diào)研機(jī)構(gòu)佛瑞斯特研究公司(Forrester)發(fā)布《2018年一季度云端數(shù)據(jù)倉庫》報(bào)告。報(bào)告對(duì)大數(shù)據(jù)服務(wù)商的主要功能、區(qū)域表...
閱讀 2294·2021-09-22 15:27
閱讀 3166·2021-09-03 10:32
閱讀 3491·2021-09-01 11:38
閱讀 2493·2019-08-30 15:56
閱讀 2206·2019-08-30 13:01
閱讀 1531·2019-08-29 12:13
閱讀 1409·2019-08-26 13:33
閱讀 884·2019-08-26 13:30