點擊上方“IT那活兒”公眾號,關注后了解更多內容,不管IT什么活兒,干就完了!!!
某核心系統業務部分業務遷移到國產數據庫OceanBase,但是歷史數據仍然需要遷移到Oracle數據庫,對數據實時性要求不高,只需要清理前完成1個月的數據遷移即可 。
DataX
DataX本身作為離線數據同步框架,采用Framework + plugin架構構建。
將數據源讀取和寫入抽象成為Reader/Writer插件,納入到整個同步框架中,比較簡潔。
Reader:Reader為數據采集模塊,負責采集數據源的數據,將數據發送給Framework。
Writer:Writer為數據寫入模塊,負責不斷向Framework取數據,并將數據寫入到目的端。
datax的使用
python {DATAX_HOME}/bin/datax.py {JSON_FILE_NAME}.json
{
"job": {
"setting": {
"speed": {
"channel": 100,
"bytes":0
},
"errorLimit": {
"record":"",
"percentage":
}
},
"content": [
{
"reader": {
"name": "oceanbasev10reader",
"parameter": {
"username": "",
"password": "",
"column": [
"*"
],
"connection": [
{
"jdbcUrl":[ ""],
"querySql": [
"select * from ${readTb} PARTITION(${readpartition}) "
]
}
],
"batchSize": 1024
}
},
"writer": {
"name": "oraclewriter",
"parameter": {
"where": "",
"column": ["*"],
"preSql": [],
"connection": [
{
"jdbcUrl": "",
"table": ["${writeTb}"]
}
],
"username": "",
"password": ""
}
}
}
]
}
}
python /home/admin/tools/datax3/bin/datax.py
/home/admin/ob_ss/ob_to_ora_ss_tbcs5.json -p"-DreadTb=table1
-Dreadpartition=partition1 -DwriteTb=table1 "
#!/bin/bash
v_table_list=/home/admin/ob_ss/source_table.lst
v_exec_command=/home/admin/tools/datax3/bin/datax.py
v_path_json=/home/admin/ob_ss/ob_to_ora_ss_tbcs5.json
v_path_log=/home/admin/ob_ss/log/
#從table_name.txt獲取表名、分區
for table_name in `cat $v_table_list`
Do
v_source_table_name1=`echo $table_name|awk -F ":" {print $1}`
v_source_table_partition=`echo $table_name|awk -F ":" {print $2}`
v_target_table_name=`echo $table_name|awk -F ":" {print $1}|awk -F "." {print $2}`
$v_exec_command --loglevel=info -p "
-DreadTb=${v_source_table_name1}
-Dreadpartition=${v_source_table_partition}
-DwriteTb=${v_target_table_name}
" $v_path_json >> "$v_path_log"$v_source_table_name1"_"$v_source_table_partition".log
DataX的并發參數
Json配置文件讀寫數據有兩種模式:
遇到的問題
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/129386.html
摘要:與大數據體系交互上報運行統計數據自帶了運行結果的統計數據,我們希望把這些統計數據上報到元數據系統,作為的過程元數據存儲下來。基于我們的開發策略,不要把有贊元數據系統的嵌入源碼,而是在之外獲取,截取出打印的統計信息再上報。一、需求 有贊大數據技術應用的早期,我們使用 Sqoop 作為數據同步工具,滿足了 MySQL 與 Hive 之間數據同步的日常開發需求。 隨著公司業務發展,數據同步的場景越...
Oceanbase新版本復合分區添加分區操作 img{ display:block; margin:0 auto !important; width:100%; } body{ width:75%; ...
在社會化分工、軟件行業細分專業化的趨勢下,會真的參與到底層系統實現的人肯定是越來越少(比例上說)。真的會參與到JVM實現的人肯定是少數。 但如果您對JVM是如何實現的有興趣、充滿好奇,卻苦于沒有足夠系統的知識去深入,那么可以參考RednaxelaFX整理的這個書單。 showImg(http://segmentfault.com/img/bVbGzn); 本豆列的脈絡是: 1. JV...
摘要:在有贊的技術演進。業務數據量正在不斷增大,這些任務會影響業務對外服務的承諾。監控需要收集上執行的的審計信息,包括提交者執行的具體,開始結束時間,執行完成狀態。還有一點是詳細介紹了的原理,實踐中設置了的比默認的減少了以上的時間。 前言 有贊數據平臺從2017年上半年開始,逐步使用 SparkSQL 替代 Hive 執行離線任務,目前 SparkSQL 每天的運行作業數量5000個,占離線...
閱讀 1346·2023-01-11 13:20
閱讀 1684·2023-01-11 13:20
閱讀 1132·2023-01-11 13:20
閱讀 1858·2023-01-11 13:20
閱讀 4100·2023-01-11 13:20
閱讀 2704·2023-01-11 13:20
閱讀 1385·2023-01-11 13:20
閱讀 3597·2023-01-11 13:20