国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

《大數據技術原理與應用》第一章-大數據概述

1fe1se / 1867人閱讀

1.1 大數據時代

00 簡要介紹

大數據真正被大家所熟知的時候也就是在2010年左右,而大數據的大背景是第三次信息化浪潮,第三次信息化浪潮就是以大數據、云計算、物聯網三種新興技術為代表的人類信息化歷史上的第三次浪潮,在這之前,還有兩次信息化浪潮,具體如下:

信息化浪潮發生時間標志解決問題代表企業
第一次浪潮1980年前后個人計算機信息處理Intel、AMD、IBM、蘋果、微軟、聯想、戴爾、惠普等
第二次浪潮1995年前后互聯網信息傳輸雅虎、谷歌、阿里巴巴、百度、騰訊等
第三次浪潮2010年前后物聯網、云計算和大數據信息爆炸將涌現出一批新的市場標桿企業

01 時代背景的支撐

大數據時代的到來是必然要有一些相關的支撐,首要的就是技術支撐,主要分為三點:
① 存儲 :存儲設備容量不斷增加

② 計算 :CPU 處理能力大幅提升

③ 網絡 :網絡帶寬不斷增加

其次是數據產生方式的變革
① 第一階段(上世紀七八十年代):運營式系統階段
例如,超市購物時在數據庫系統中一條一條的生成購物信息

② 第二階段(2002年附近):用戶原創內容階段
例如,博客、微博的出現,大眾每個人都是自媒體,每個人都可以在網絡上發布數據

③ 第三階段:感知式系統階段
這一階段是伴隨著物聯網的普及開始的,物聯網底層是感知層,如攝像頭、傳感器等,這些設備無時無刻不在感知外界信息,可以說物聯網的產生才真正導致了大數據的到來

由此可以簡單的概括一下大數據的發展歷程:

時間階段
上世紀90年代至上世紀末期萌芽期
本世紀前十年成熟期
2010年以后大規模應用期

1.2 大數據的概念和影響

00 大數據的 4V 特性?

① 數據量大(Volume 大量化)

  • 大數據的摩爾定律
    • 人類在最近兩年產生的數據量相當于之前產生的全部數據量,其數據產生的非常塊

② 數據種類多(Variety 多樣化)

  • 大數據的數據類型繁多
    • 大數據由結構化非結構化數據組成,其中結構化數據占10%左右,非結構化數據占90%左右
      • 結構化就是存儲在關系型數據庫中的結構化數據
      • 非結構化就是圖形、圖像之類的數據

③ 數據產生速度快(Velocity 快速化)

  • 從數據的生成到消耗,時間窗口非常小,可用于生成決策的時間非常少
    • 不少企業級應用都需要遵守秒級決策定律

④ Value 價值密度低

  • 數據量大,價值密度低,商業價值高
    • 舉個例子:攝像頭每時每刻都在產生視頻數據,但這其中真正被我們用到的數據很少,如果一整年都沒出事,這些一整年的視頻數據就沒有任何作用,只有出事的那一刻,我們才會用到出事的那一刻的視頻數據,這就是數據的價值密度低

01 大數據的影響

① 科學研究的范式變化

  • 第一種范式:實驗
    • 如:伽利略比薩斜塔實驗等
  • 第二種范式:理論
    • 如:幾何定論、牛頓三大定律等
  • 第三種范式:計算
    • 如:
  • 第四種范式:數據 (新增)
    • 以數據為驅動
      • 我們不知道問題是什么,問題在哪,完全是以數據為驅動,通過大數據分析發現問題、解決問題

② 思維方式的變化?

  • 全樣而非抽樣

在之前,數據太多,無法保存和分析,統計學采用抽樣,而現在,我們可以對所有數據進行分析

  • 效率而非精確

在之前,抽樣分析要求的是精確而不是效率,這是因為抽樣分析只是抽取部分數據,而不是所有數據,如果抽樣計算的結果有誤差,放到全樣上,誤差會被放大;而現在全樣分析的誤差就是在全樣上,我們不需要刻意去追求精確,這時注意的就是效率,因為一些數據是有時效性的,如果當下沒有計算出來,那這個數據就失效了

  • 相關而非因果
    大數據時代,我們不關心它們之間是為什么,我們只關心它們之間相互的關聯,例如,你在淘寶買了本書,它還會給你推薦其他書,它不會告訴你為什么,它只會跟你說這些書之間有相關關系

1.3 大數據的應用

大數據的應用有很多,這里僅列舉一些例子:

00 影視劇的投拍

在之前,影視劇的投拍多是跟風,看見哪個劇拍了之后火了,其他人也拍這類型的劇,但是它不一定火;而現在,通過大數據分析,我們可以分析出選用哪個演員哪個導演拍什么劇會火,例如,美劇《紙牌屋》就是大數據分析的結果,沒有大數據分析,沒有人知道要找這個演員和找這個導演然后拍這個劇會火

01 谷歌預測流感

在之前,美國的傳統流感預測方式就是各醫療機構層層上報門診病歷,然后由專家匯總分析發布報告,一般來說,這個報告會比真實情況延遲一到兩周;而谷歌則是用搜索引擎實時收集各類用戶查詢信息,通過大數據分析預測流感趨勢,這是因為現在大多數人遇到小病時,先是求助搜索引擎,其次才是去醫院,這樣一來,谷歌就可以根據一些關鍵字如感冒、發燒去分析流感趨勢,其預測結果也和美國疾控中心發布的報告結果基本吻合

03 新冠疫情地區分布圖

近兩年的新冠疫情,我們經??梢栽谑謾C上看到疫情的實時數據更新,其中的疫情地區分布圖就是大數據的一個應用

1.4 大數據的關鍵技術

00 大數據技術的層次

大數據技術在以下四個層次都有發展:

  • 數據采集
  • 數據存儲與管理
  • 數據處理與分析
  • 數據隱私與安全

但近幾年發展的大數據的最核心的技術多在數據存儲與管理層和數據處理與分析層,由此可概括的兩大核心技術:
分布式存儲

  • 解決海量數據的存儲問題
    • 一臺機器無法存儲,我們就借助集群進行分布式存儲

分布式處理

  • 解決海量數據的處理問題
    • 一臺機器無法高效完成數據處理,我們就借助集群進行分布式處理

大數據技術原理與應用這門課程的主要內容就是將講這兩大核心技術,分布式存儲技術與分布式處理技術主要是以谷歌的技術為代表,這其中主要的技術就是 分布式數據庫Big Table、分布式文件系統GFS分布式并行處理技術MapReduce

02 大數據計算模式?

現在有非常多的大數據技術相關產品的存在,但是企業中不同的應用場景屬于不同的計算模式,需要使用不同的大數據技術,因此我們需要學會判斷計算模式并選擇合適的大數據技術相關產品
① 批處理計算

  • 針對問題:
    • 大規模數據的批量處理
  • 批處理計算的代表產品:
    • MapReduce、Spark等
      • MapReduce
        • MapReduce 是批處理計算模式的典型代表,它就是把一堆數據拿過來作批量處理,它不適合用來做實時的交互式計算,無法滿足時效性的要求
      • Spark
        • Spark 的實時性要比 MapReduce 好,并且解決了 MapReduce 無法高效做迭代計算的問題

② 流計算

  • 針對問題:
    • 流數據的實時計算
  • 流數據需要實時處理,給出實時相應,否則分析結果就會失去商業價值
  • 流計算的代表產品:
    • S4、Storm、Flume、Streams、Puma、DStream、Super Mario、銀河流數據處理平臺等
  • 流計算可以做秒級的針對實時運算的數據

③ 圖計算

  • 針對問題:
    • 大規模圖結構數據的處理
  • 圖計算可以高效處理圖數據,如:
    • 社交網絡數據就是圖結構數據
  • 圖計算的代表產品:
    • Google Pregel、GraphX、Giraph、PowerGraph、Hama、GoldenOrb等

④ 查詢分析計算

  • 針對問題:
    • 大規模數據的存儲管理和查詢分析
  • 交互式的查詢計算
  • 查詢分析計算的代表產品:
    -Google Dremel、Hive、Cassandra、Impala等

1.5 大數據與云計算、物聯網的關系

00 云計算

  • 什么是云計算?云計算就是解決兩大核心問題:分布式存儲分布式處理

  • 云計算的典型特征:虛擬化多用戶

  • 云計算的概念:云計算就是通過網絡以服務的方式為用戶提供非常廉價的IT資源

  • 云計算的優勢:企業不需自建IT基礎設施,可以租用云端資源

  • 云計算的三種模式:

    • 公有云
      • 面向公眾
    • 私有云
      • 面向企業內部
    • 混合云
      • 部分給自己,部分給外面
  • ?三種云服務:

    • IaaS —— 基礎設施即服務
      • 將基礎設施(計算資源和存儲)作為服務出租
    • Paas —— 平臺即服務
      • 針對開發者,開發者開發產品時調用平臺接口,將產品部署在平臺上,就可以使用平臺的云計算資源
    • SaaS —— 軟件即服務
      • 典型案例:云財務軟件
      • 不需要本地安裝軟件再使用,對方將整個軟件以服務的形式賣給你,只要有網絡,你就可以打開手機或電腦對軟件進行操作
  • 云計算關鍵技術:虛擬化、分布式存儲分布式計算、多租戶

01 物聯網

  • 物聯網概念:

    • 物聯網(IoT : The Internet of Things) 就是物物相連的互聯網,是互聯網的延伸
  • 物聯網層次架構

  • 物聯網的關鍵技術:識別技術感知技術

  • ?物聯網、云計算與大數據三者緊密先關,相輔相成

    • 物聯網可以借助于大數據實現海量數據的存儲和分析

1.6 小結

至此,我們簡要了解了大數據的產生和發展、大數據的特性和影響、大數據的應用和關鍵技術以及云計算的相關概念。

√ 圈重點:
? 大數據的4V特性
? 大數據的影響(科學范式、思維)
? 大數據計算模式(批處理計算、流計算、圖計算、查詢分析計算)
? 三種云服務
? 大數據、云計算與物聯網之間的關系

文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。

轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/124042.html

相關文章

  • 【51單片機】??萬物互聯??一招搞定單片機(持續更新中......)

    目錄 第一章:單片機概述 單片機的應用領域: STC89C52單片機: 單片機命名規則: ?單片機內部結構圖: ?單片機管腳圖: ?單片機最小系統: 進制表: 新建一個工程:? 檢查單片機驅動是否安裝完成: 打開Keil uVision集成開發環境 選擇Atmel下的AT89C52 創建源文件? ?第二章:LED LED介紹: ?點亮LED:?? 第一章:單片機概述 單片機(Micro Contr...

    idisfkj 評論0 收藏0
  • 動力節點JavaNIO教程,輕松攻破Java NIO技術壁壘

    摘要:學習和掌握技術已經不是一個攻城獅的加分技能,而是一個必備技能。是雙向的,不僅可以讀取數據還能保存數據,程序不能直接讀寫通道,只與緩沖區交互為了讓大家不被高并發與大量連接處理問題所困擾,動力節點推出了高效處理模型應用教程。 大家肯定了解Java IO, 但是對于NIO一般是陌生的,而現在使用到NIO的場景越來越多,很多技術框...

    ralap 評論0 收藏0
  • PHP程序員如何基于比特幣開發各種相關功能

    摘要:課程地址比特幣開發教程以太坊,主要是介紹使用進行智能合約開發交互,進行賬號創建交易轉賬代幣開發以及過濾器和事件等內容。 什么是比特幣 當我們談到比特幣時,其實在不同的場景下有不同的指代。 比特幣首先是一種數字加密貨幣,用戶可以通過比特幣網絡進行 比特幣轉賬或商品結算,就和傳統的貨幣一樣: showImg(https://segmentfault.com/img/remote/14600...

    Kylin_Mountain 評論0 收藏0

發表評論

0條評論

最新活動
閱讀需要支付1元查看
<