摘要:數(shù)據(jù)挖掘的基本任務(wù)數(shù)據(jù)挖掘的基本任務(wù)包括利用分類(lèi)與預(yù)測(cè)聚類(lèi)分析關(guān)聯(lián)規(guī)則時(shí)序模式偏差檢測(cè)智能推薦等方法幫助企業(yè)提取數(shù)據(jù)中蘊(yùn)含的商業(yè)價(jià)值提高企業(yè)的競(jìng)爭(zhēng)力。
原文地址:
http://blog.52sox.com/essenti...
在大數(shù)據(jù)時(shí)代下,衍生了一些新的工作職位,比如數(shù)據(jù)科學(xué)家、數(shù)據(jù)分析師。看著那誘人的薪資,恨不得能早日踏入這個(gè)行業(yè)。
那么,今天我們來(lái)對(duì)數(shù)據(jù)挖掘進(jìn)行一些基礎(chǔ)性的了解和認(rèn)識(shí)。
在這里我們主要解決以下3個(gè)問(wèn)題:
什么是數(shù)據(jù)挖掘?
數(shù)據(jù)挖掘主要的方向或工作有哪些?
數(shù)據(jù)挖掘是怎樣操作的?
上述的3個(gè)問(wèn)題,分別對(duì)應(yīng)著數(shù)據(jù)挖掘的定義、基本任務(wù)及建模的過(guò)程。
下面我們分別來(lái)進(jìn)行介紹。
數(shù)據(jù)挖掘是從大量數(shù)據(jù)(包括文本)中挖掘出隱含的、先前未知的、對(duì)決策有潛在價(jià)值的關(guān)系、模式和趨勢(shì),并用這些知識(shí)和規(guī)則建立用于決策支持的模型,提供預(yù)測(cè)性決策支持的方法、工具和過(guò)程。
通過(guò)數(shù)據(jù)挖掘有助于企業(yè)發(fā)現(xiàn)業(yè)務(wù)的趨勢(shì),揭示已知的事實(shí),預(yù)測(cè)未知的結(jié)果。
數(shù)據(jù)挖掘的基本任務(wù)包括利用分類(lèi)與預(yù)測(cè)、聚類(lèi)分析、關(guān)聯(lián)規(guī)則、時(shí)序模式、偏差檢測(cè)、智能推薦等方法,幫助企業(yè)提取數(shù)據(jù)中蘊(yùn)含的商業(yè)價(jià)值,提高企業(yè)的競(jìng)爭(zhēng)力。
數(shù)據(jù)挖掘的建模過(guò)程數(shù)據(jù)挖掘的建模過(guò)程主要分為如下幾個(gè)方面:
定義挖掘目標(biāo)
數(shù)據(jù)取樣
數(shù)據(jù)探索
數(shù)據(jù)預(yù)處理
數(shù)據(jù)建模
模型評(píng)估
數(shù)據(jù)可視化
下面我們逐一進(jìn)行介紹。
定義挖掘目標(biāo)針對(duì)具體的數(shù)據(jù)挖掘應(yīng)用需求,首先要明確本次的挖掘目標(biāo)是什么?系統(tǒng)完成后能達(dá)到什么樣的效果?
因此,我們必須分析應(yīng)用領(lǐng)域,包括應(yīng)用中的各種知識(shí)和應(yīng)用目標(biāo),了解相關(guān)領(lǐng)域的情況,熟悉背景知識(shí),弄清用戶(hù)需求。
在明確了需要進(jìn)行數(shù)據(jù)挖掘的目標(biāo)后,接下來(lái)就需要從業(yè)務(wù)系統(tǒng)中抽取1個(gè)與挖掘目標(biāo)相關(guān)的樣本數(shù)據(jù)子集。而抽取的數(shù)據(jù)的標(biāo)準(zhǔn)需要遵循以下3個(gè)原則,而不是全部的企業(yè)數(shù)據(jù):
相關(guān)性
可靠性
有效性
通過(guò)對(duì)數(shù)據(jù)樣本的精選,不僅能減少數(shù)據(jù)處理量,節(jié)省系統(tǒng)資源,還可以使我們想要尋找的規(guī)律性更加凸顯出來(lái)。
而在數(shù)據(jù)取樣的過(guò)程中,一定要嚴(yán)格把控質(zhì)量。在任何時(shí)候都不能忽視數(shù)據(jù)的質(zhì)量,即使是從1個(gè)數(shù)倉(cāng)庫(kù)中進(jìn)行數(shù)據(jù)取樣(最新出現(xiàn)了一些新的概念,比如數(shù)據(jù)湖),也不要忘記檢查其質(zhì)量。數(shù)據(jù)挖掘是探索企業(yè)運(yùn)作的內(nèi)在規(guī)律性,如果原始數(shù)據(jù)質(zhì)量不高,是很難從中探索規(guī)律性。
在這個(gè)過(guò)程中,可以使用數(shù)據(jù)質(zhì)量管理系統(tǒng)來(lái)處理這方面的工作,以便提供1個(gè)較高質(zhì)量的數(shù)據(jù)。
對(duì)于數(shù)據(jù)的抽樣方式,可以采用如下一些常見(jiàn)的方式:
隨機(jī)抽樣:我們按照隨機(jī)的方式進(jìn)行抽取,在這里假設(shè)數(shù)據(jù)集中的每1組觀測(cè)值都有相同的被抽樣的概率。然后從總樣本中抽取對(duì)應(yīng)比例的數(shù)據(jù)作為樣本。
等距抽樣:按照指定間距對(duì)指定數(shù)據(jù)進(jìn)行抽樣。
分層抽樣:首先先將總體劃分為若干層次或者說(shuō)分成若干個(gè)子集。而在每個(gè)層次中的觀測(cè)值都具有相同的被選用的概率,但是不同的層次的數(shù)據(jù)有不同的概率。這樣的抽樣結(jié)果通常具有代表性,模型也具有更好的擬合精度。
按照順序抽樣:按照數(shù)據(jù)的排列的序號(hào)進(jìn)行抽取指定百分比的數(shù)據(jù),比如從總體的第100條開(kāi)始抽取200條記錄。
分類(lèi)抽樣:根據(jù)數(shù)據(jù)的某種屬性來(lái)選擇數(shù)據(jù)子集,比如按照客戶(hù)名稱(chēng)分類(lèi)、地址區(qū)域分類(lèi)來(lái)進(jìn)行抽取。
數(shù)據(jù)探索通過(guò)之前的步驟我們得到了數(shù)據(jù)取樣的樣本,而在這個(gè)過(guò)程中多多少少還有帶有個(gè)人對(duì)如何實(shí)現(xiàn)數(shù)據(jù)挖掘目標(biāo)主觀認(rèn)識(shí)而進(jìn)行操作的。而當(dāng)我們拿到了1個(gè)樣本時(shí),探索的內(nèi)容包括:
這個(gè)樣本的數(shù)據(jù)是否能達(dá)到我們?cè)仍O(shè)想的要求
數(shù)據(jù)間有沒(méi)有什么明顯的規(guī)律和趨勢(shì)
數(shù)據(jù)的屬性之間有沒(méi)有什么相關(guān)性
數(shù)據(jù)可以區(qū)分為怎樣的一些類(lèi)別
而對(duì)抽取的樣本數(shù)據(jù)進(jìn)行探索、審核和一些加工處理,是保證數(shù)據(jù)挖掘模型最終質(zhì)量的要求。一般情況下,數(shù)據(jù)的探索主要包括:
異常值的分析
缺失值的分析及處理
相關(guān)性分析
周期性分析
數(shù)據(jù)預(yù)處理當(dāng)采用的數(shù)據(jù)維度過(guò)大時(shí),如何對(duì)數(shù)據(jù)進(jìn)行降維處理,如何對(duì)缺失數(shù)據(jù)的處理等內(nèi)容都是數(shù)據(jù)預(yù)處理需要解決的問(wèn)題。
由于采樣的數(shù)據(jù)常常包含一些噪音、不完整甚至不一致的數(shù)據(jù),我們需要對(duì)數(shù)據(jù)進(jìn)行一些預(yù)處理操作以便改善數(shù)據(jù)質(zhì)量,從而最終達(dá)到完善最終數(shù)據(jù)挖掘結(jié)果。
而數(shù)據(jù)的預(yù)處理主要包括:
數(shù)據(jù)篩選
數(shù)據(jù)變量轉(zhuǎn)換
缺失值處理
數(shù)據(jù)標(biāo)準(zhǔn)化
壞數(shù)據(jù)處理
主成分PCA分析
數(shù)據(jù)建模在樣本抽取完成并經(jīng)過(guò)預(yù)處理后,接下來(lái)需要考慮的問(wèn)題是,這次要處理的問(wèn)題屬于數(shù)據(jù)挖掘應(yīng)用中的哪類(lèi)問(wèn)題(分類(lèi)、聚類(lèi)、關(guān)聯(lián)規(guī)則、時(shí)序模式或智能推薦),應(yīng)該選用哪些算法來(lái)進(jìn)行模型的構(gòu)建。
而這一步是數(shù)據(jù)挖掘工作的核心環(huán)節(jié)。
通過(guò)數(shù)據(jù)的建模后我們可以得到一系列的分析結(jié)果,我們需要從這些模型中自動(dòng)找出1個(gè)最好的模型,另外需要從業(yè)務(wù)的角度對(duì)模型進(jìn)行解釋和應(yīng)用。
數(shù)據(jù)可視化數(shù)據(jù)挖掘的1個(gè)操作是對(duì)結(jié)果進(jìn)行可視化處理,通過(guò)圖表化的方式可以更為通俗易懂的解釋一些業(yè)務(wù)的問(wèn)題,也可以更容易發(fā)現(xiàn)數(shù)據(jù)中的規(guī)律性。
參考書(shū)籍:
《Python Practice of Data Analysis and Mining》
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://specialneedsforspecialkids.com/yun/40681.html
摘要:業(yè)務(wù)運(yùn)維是運(yùn)維與企業(yè)業(yè)務(wù)深度融合的產(chǎn)物,是運(yùn)維管理在互聯(lián)網(wǎng)時(shí)代和云計(jì)算大數(shù)據(jù)技術(shù)推動(dòng)下的必然結(jié)果。 從信息化時(shí)代起,企業(yè)一直在試圖發(fā)現(xiàn)業(yè)務(wù)數(shù)據(jù)中深藏的商業(yè)價(jià)值,并為此誕生了數(shù)據(jù)挖掘、商業(yè)智能、BPM、BSM等諸多技術(shù),然而互聯(lián)網(wǎng)時(shí)代的到來(lái),專(zhuān)為封閉生產(chǎn)環(huán)境而生的信息化系統(tǒng),已經(jīng)無(wú)法滿(mǎn)足企業(yè)高速增長(zhǎng)的互聯(lián)網(wǎng)開(kāi)放業(yè)務(wù)和隨著而來(lái)的海量信息的處理需求。互聯(lián)網(wǎng)+最大的價(jià)值在于連接,企業(yè)根據(jù)原有生...
閱讀 631·2021-08-17 10:15
閱讀 1715·2021-07-30 14:57
閱讀 1970·2019-08-30 15:55
閱讀 2813·2019-08-30 15:55
閱讀 2703·2019-08-30 15:44
閱讀 662·2019-08-30 14:13
閱讀 2380·2019-08-30 13:55
閱讀 2587·2019-08-26 13:56