大數(shù)據(jù)框架hadoop服務角色介紹

atinosun 發(fā)布于2019-08-16 13:40 / 3401人閱讀

摘要：大數(shù)據(jù)框架服務角色介紹翻了一下最近一段時間寫的分享，發(fā)行版本下載安裝運行環(huán)境部署等相關(guān)內(nèi)容幾乎都已經(jīng)寫了一遍了。這些數(shù)據(jù)通常是由于吞吐量的要求而通過處理日志和日志聚合來解決。

大數(shù)據(jù)框架hadoop服務角色介紹
翻了一下最近一段時間寫的分享，DKHadoop發(fā)行版本下載、安裝、運行環(huán)境部署等相關(guān)內(nèi)容幾乎都已經(jīng)寫了一遍了。雖然有的地方可能寫的不是很詳細，個人理解水平有限還請見諒吧！我記得在寫DKHadoop運行環(huán)境部署的時候，遺漏了hadoop服務角色的內(nèi)容，本篇特地補上這部分內(nèi)容吧，不然總覺得不舒服。

要在集群中運行DKHadoop服務，需要指定集群中的一個或多個節(jié)點執(zhí)行該服務的特定功能，角色分配是必須的，沒有角色集群將無法正常工作，在分配角色前，需要了解這些角色的含義。
Hadoop服務角色：

zookeeper角色：ZooKeeper服務是指包含一個或多個節(jié)點的集群提供服務框架用于集群管理。對于集群，Zookeeper服務提供的功能包括維護配置信息、命名、提供HyperBase的分布式同步，推薦在 ZooKeeper集群中至少有3個節(jié)點。

JDK角色：JDK是 Java 語言的軟件開發(fā)工具包， JDK是整個Java開發(fā)的核心，它包含了Java的運行環(huán)境，Java工具和Java基礎(chǔ)的類庫。

Apache-Flume角色：Flume是Cloudera提供的一個高可用的，高可靠的，分布式的海量日志采集、聚合和傳輸?shù)南到y(tǒng)，F(xiàn)lume支持在日志系統(tǒng)中定制各類數(shù)據(jù)發(fā)送方，用于收集數(shù)據(jù)；同時，F(xiàn)lume提供對數(shù)據(jù)進行簡單處理，并寫到各種數(shù)據(jù)接收方（可定制）的能力。

Apache-Hive角色：Hive是基于Hadoop的一個數(shù)據(jù)倉庫工具，可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表，并提供簡單的SQL查詢功能，可以將SQL語句轉(zhuǎn)換為MapReduce任務進行運行。

Apache-Storm角色：Storm是內(nèi)存級計算，數(shù)據(jù)直接通過網(wǎng)絡(luò)導入內(nèi)存。讀寫內(nèi)存比讀寫磁盤速度快n個數(shù)量級。當計算模型比較適合流式時，Storm的流式處理，省去了批處理的收集數(shù)據(jù)的時間.

Elasticsearch角色：Elasticsearch是用Java開發(fā)的，并作為Apache許可條款下的開放源碼發(fā)布，是當前流行的企業(yè)級搜索引擎。設(shè)計用于云計算中，能夠達到實時搜索、穩(wěn)定、可靠、快速，安裝使用方便。

NameNode角色：HDFS系統(tǒng)中的節(jié)點用于維護文件系統(tǒng)中所有文件的目錄結(jié)構(gòu)并跟蹤文件數(shù)據(jù)存儲于哪些數(shù)據(jù)節(jié)點。當客戶端需要從HDFS 文件系統(tǒng)中獲得文件時，它通過和NameNode通訊來知道客戶端哪個數(shù)據(jù)節(jié)點上有客戶端需要的文件。一個Hadoop集群中只能有一個NameNode。NameNode不能被賦予其他角色。

DataNode角色：在HDFS中，DataNode是用來存儲數(shù)據(jù)塊的節(jié)點。

Secondary NameNode 角色：為NameNode上的數(shù)據(jù)創(chuàng)建周期性檢查點的節(jié)點。節(jié)點將周期性地下載當前NameNode鏡像和日志文件，將日志和鏡像文件合并為一個新的鏡像文件然后上傳到NameNode。被分配了NameNode角色的機器不應再被分配Secondary NameNode 角色。

Standby Namenode角色：Standby模式的NameNode元數(shù)據(jù)（Namespcae information 和 Block 都是和Active NameNode中的元數(shù)據(jù)是同步的，一但切換成Active模式，馬上就可以提供NameNode服務。

JournalNode角色：Standby NameName和Active NameNode通過JournalNode通信，保持信息同步。

HBase角色：HBase是一個分布式的、面向列的開源數(shù)據(jù)庫。HBase在Hadoop之上提供了類似于BigTable的能力。HBase是Apache的Hadoop項目的子項目。HBase不同于一般的關(guān)系數(shù)據(jù)庫，它是一個適合于非結(jié)構(gòu)化數(shù)據(jù)存儲的數(shù)據(jù)庫。另一個不同的是HBase基于列的而不是基于行的模式。

Kafka角色：Kafka是一種高吞吐量的分布式發(fā)布訂閱消息系統(tǒng)，它可以處理消費者規(guī)模的網(wǎng)站中的所有動作流數(shù)據(jù)。這種動作（網(wǎng)頁瀏覽，搜索和其他用戶的行動）是在現(xiàn)代網(wǎng)絡(luò)上的許多社會功能的一個關(guān)鍵因素。這些數(shù)據(jù)通常是由于吞吐量的要求而通過處理日志和日志聚合來解決。對于像Hadoop的一樣的日志數(shù)據(jù)和離線分析系統(tǒng)，但又要求實時處理的限制，這是一個可行的解決方案。Kafka的目的是通過Hadoop的并行加載機制來統(tǒng)一線上和離線的消息處理，也是為了通過集群來提供實時的消費。

Redis角色：Redis是一個開源的使用C語言編寫、支持網(wǎng)絡(luò)、可基于內(nèi)存亦可持久化的日志型、Key-Value數(shù)據(jù)庫，并提供多種語言的API。

Scala角色：Scala是一門多范式的編程語言，一種類似Java的編程語言，設(shè)計初衷是實現(xiàn)可伸縮的語言、并集成面向?qū)ο缶幊毯秃瘮?shù)式編程的各種特性。

Sqoop角色：Sqoop是一個用來將Hadoop和關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù)相互轉(zhuǎn)移的工具，可以將一個關(guān)系型數(shù)據(jù)庫（例如： MySQL ,Oracle ,Postgres等）中的數(shù)據(jù)導進到Hadoop的HDFS中，也可以將HDFS的數(shù)據(jù)導入到關(guān)系型數(shù)據(jù)庫中。

Impala角色：Impala是Cloudera公司主導開發(fā)的新型查詢系統(tǒng)，它提供SQL語義，能查詢存儲在Hadoop的HDFS和HBase中的PB級大數(shù)據(jù)。已有的Hive系統(tǒng)雖然也提供了SQL語義，但由于Hive底層執(zhí)行使用的是MapReduce引擎，仍然是一個批處理過程，難以滿足查詢的交互性。相比之下，Impala的最大特點也是最大賣點就是它的快速。

Crawler角色：Crawler是大快DKHadoop專有組件，爬蟲系統(tǒng)，爬取動態(tài)靜態(tài)數(shù)據(jù)。

Spark角色：Spark是一種與Hadoop相似的開源集群計算環(huán)境，但是兩者之間還存在一些不同之處，這些有用的不同之處使 Spark 在某些工作負載方面表現(xiàn)得更加優(yōu)越，換句話說，Spark 啟用了內(nèi)存分布數(shù)據(jù)集，除了能夠提供交互式查詢外，它還可以優(yōu)化迭代工作負載。Spark 是在Scala語言中實現(xiàn)的，它將Scala用作其應用程序框架。與Hadoop不同，Spark和Scala能夠緊密集成，其中的Scala可以像操作本地集合對象一樣輕松地操作分布式數(shù)據(jù)集。

HUE角色：HUE是一組可與您的Hadoop jiqun 交互的網(wǎng)絡(luò)應用程序。HUE應用能讓您瀏覽HDFS和工作,管理Hive metastore,運行Hive，瀏覽HBase Sqoop出口數(shù)據(jù),提交MapReduce程序,構(gòu)建自定義的搜索引擎與Solr一起調(diào)度重復性的工作流。

USDP大數(shù)據(jù)平臺托管Hadoop集群大數(shù)據(jù)框架hadoop和spark 大數(shù)據(jù)介紹大數(shù)據(jù)平臺介紹大數(shù)據(jù)倉庫介紹

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://specialneedsforspecialkids.com/yun/72132.html

發(fā)表評論

登陸后可評論

0條評論

atinosun

男|高級講師

我要關(guān)注我要私信

TA的文章

miniconda

閱讀 853·2023-04-26 00:11
GreenCloudVPS八周年活動,VPS年付五折起

閱讀 2654·2021-11-04 16:13
C經(jīng)典書籍筆記——C陷阱與缺陷③（語意陷阱）

閱讀 2101·2021-09-09 09:33
iON：兩周年慶，圣何塞CN2 GIA和新加坡CN2年付8折優(yōu)惠，KT旗下商家，網(wǎng)速快穩(wěn)定

閱讀 1470·2021-08-20 09:35
CloudIPLC：539元/月/1GB內(nèi)存/20GB空間/2TB流量/100Mbps端口/獨立IP

閱讀 3816·2021-08-09 13:42
（淘寶無限適配）手機端rem布局詳解（轉(zhuǎn)載非原創(chuàng)）

閱讀 3603·2019-08-30 15:55
css浮動及其危害和解決方法

閱讀 1037·2019-08-30 15:55
css3動畫整理

閱讀 2218·2019-08-30 13:55

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

大數(shù)據(jù)框架hadoop服務角色介紹

相關(guān)文章

發(fā)表評論

0條評論

atinosun

男|高級講師

TA的文章

miniconda

GreenCloudVPS八周年活動,VPS年付五折起

C經(jīng)典書籍筆記——C陷阱與缺陷③（語意陷阱）

iON：兩周年慶，圣何塞CN2 GIA和新加坡CN2年付8折優(yōu)惠，KT旗下商家，網(wǎng)速快穩(wěn)定

CloudIPLC：539元/月/1GB內(nèi)存/20GB空間/2TB流量/100Mbps端口/獨立IP

（淘寶無限適配）手機端rem布局詳解（轉(zhuǎn)載非原創(chuàng)）

css浮動及其危害和解決方法

css3動畫整理

最新活動