spark sql基本內容

IT那活兒發布于2023-01-11 13:20 / 2281人閱讀

spark sql基本內容

點擊上方“IT那活兒”，關注后了解更多內容，不管IT什么活兒，干就完了！！！

01

簡介

Spark SQL是spark中處理結構化數據的模塊，區別于RDD接口，Spark SQL接口提供了更多關于數據結構和執行計算的信息，Spark SQL使用這些額外的信息進行額外的優化，Spark SQL有兩種交互方式，SQL和DataSet API方式，但是這兩種方式使用的相同的執行引擎。

Spark SQL可以從Hive中讀取數據，也可以通過編程語言與Spark SQL交互，這將返回DataSet/DataFrame數據集，也可以通過命令行或JDBC/ODBC與Spark SQL進行交互。

DataSet是分布式數據集，是Spark 1.6版本新增接口，其支持java、scala語言。DataFrame相當于關系型數據庫的表，其支持的數據源有結構化文件、配置單元中的表、外部數據庫或RDD，其支持java、scala、python和R語言。

02

使用步驟

Spark功能入口是sparkSession，創建sparkSession：

03

支持的數據源

3.1 文件

3.2 hive表

spark支持對hive的讀寫，但是需要增加hive依賴，自spark2.0.0版本以后，可以使用spark.sql.warehouse.dir來配置默認數據倉庫的位置。

方法如下：

3.3 關系型數據庫

spark也可以方便的與關系型數據庫進行集成，可以對關系型數據庫進行讀寫，由于關系型數據庫都是結構化數據庫，使用spark sql也可方便的進行分析。

下面以mysql為例進行說明：

1）首先需要添加驅動依賴：

2）讀取數據

3）寫入數據

創建user實體

04

總結

Spark SQL可以很方便的讀取結構化數據，不僅支持文件的讀寫操作，還支持數據庫的讀寫，而且還支持多種語言，例如常用的java、scala、python、R語言，在實際工作中我們可以使用Spark SQL對結構化數據進行清洗裝載等工作。

end

本文作者：潘宗昊

本文來源：IT那活兒（上海新炬王翦團隊）

GPU云服務器云服務器大數據基本內容 spark sql 大數據的基本內容人工智能的基本內容

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://specialneedsforspecialkids.com/yun/129643.html

大數據入門指南（GitHub開源項目）

摘要：項目地址前言大數據技術棧思維導圖大數據常用軟件安裝指南一分布式文件存儲系統分布式計算框架集群資源管理器單機偽集群環境搭建集群環境搭建常用命令的使用基于搭建高可用集群二簡介及核心概念環境下的安裝部署和命令行的基本使用常用操作分區表和分桶表視圖項目GitHub地址：https://github.com/heibaiying... 前言大數據技術棧思維導圖大數據常用軟件安裝指...

guyan0319 2019-08-19 11:46 評論0 收藏0
『 Spark 』1. spark 簡介

摘要：原文鏈接簡介寫在前面本系列是綜合了自己在學習過程中的理解記錄對參考文章中的一些理解個人實踐過程中的一些心得而來。其次，本系列是基于目前最新的系列開始的，目前的更新速度很快，記錄一下版本好還是必要的。原文鏈接：『 Spark 』1. spark 簡介寫在前面本系列是綜合了自己在學習spark過程中的理解記錄＋對參考文章中的一些理解＋個人實踐spark過程中的一些心得而來。寫...

G9YH 2019-07-31 10:50 評論0 收藏0
大數據時代數據庫-云HBase架構&生態&實踐

摘要：摘要第九屆中國數據庫技術大會，阿里云高級技術專家架構師封神曹龍帶來題為大數據時代數據庫云架構生態實踐的演講。主要內容有三個方面首先介紹了業務挑戰帶來的架構演進，其次分析了及生態，最后分享了大數據數據庫的實際案例。數據備份及恢復。摘要： 2018第九屆中國數據庫技術大會，阿里云高級技術專家、架構師封神（曹龍）帶來題為大數據時代數據庫-云HBase架構&生態&實踐的演講。主要內容有三個方...

econi 2019-06-25 18:39 評論0 收藏0

發表評論

登陸后可評論

0條評論

IT那活兒

男|高級講師

我要關注我要私信

TA的文章

消息中間件故障分析一例

閱讀 1346·2023-01-11 13:20
RAC雙節點crash回復一例

閱讀 1684·2023-01-11 13:20
ORA-600處理一例

閱讀 1132·2023-01-11 13:20
雙節點RAC實例2 HANG 故障分析一例

閱讀 1860·2023-01-11 13:20
RAC集群節點1重啟分析一例

閱讀 4100·2023-01-11 13:20
CRS啟動報錯CRS-1656處理分享

閱讀 2704·2023-01-11 13:20
oracle 12CR2打補丁報錯處理一例

閱讀 1385·2023-01-11 13:20
分布式緩存組件故障分析及監控優化

閱讀 3597·2023-01-11 13:20

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優惠，快來選購！

spark sql基本內容

點擊上方“IT那活兒”，關注后了解更多內容，不管IT什么活兒，干就完了！！！

01

02

03

3.2 hive表

3.3 關系型數據庫

04

本文作者：潘宗昊

本文來源：IT那活兒（上海新炬王翦團隊）

相關文章

大數據入門指南（GitHub開源項目）

**『 Spark 』1. spark 簡介**

大數據時代數據庫-云HBase架構&生態&實踐

發表評論

0條評論

IT那活兒

男|高級講師

TA的文章

消息中間件故障分析一例

RAC雙節點crash回復一例

ORA-600處理一例

雙節點RAC實例2 HANG 故障分析一例

RAC集群節點1重啟分析一例

CRS啟動報錯CRS-1656處理分享

oracle 12CR2打補丁報錯處理一例

分布式緩存組件故障分析及監控優化

最新活動