{eval=Array;=+count(Array);}
Spark Shark |即Hive onSpark
a.在實現上是把HQL翻譯成Spark上的RDD操作,然后通過Hive的metadata獲取數據庫里的表信息,Shark獲取HDFS上的數據和文件夾放到Spark上運算.
b.它的最大特性就是快以及與Hive完全兼容
c.Shark使用了Hive的API來實現queryparsing和logic plan generation,最后的Physical Plan execution階段用Spark代替Hadoop MR。
d.通過配置Shark參數,Shark可以自動在內存中緩存特定的RDD,實現數據重用,進而加快特定數據集的檢索。
e.Shark通過UDF實現特定的數據分析學習算法,使得SQL數據查詢和運算分析結合在一起,最大化RDD的重復使用。
Spark SQL
a.是基于Catalyst(翻譯為催化劑)引擎的交互式大數據SQL技術,使用SchemaRDD來操作SQL,比Shark支持更過的查詢表達式。
b.支持Hive|HBase|Oracle
0
回答0
回答10
回答2
回答0
回答2
回答0
回答0
回答0
回答0
回答