摘要:數據挖掘的流程與方法任務關聯分析聚類分析分類分析異常分析特異組群分析演變分析方法統計在線處理分析情報檢索機器學習分類實際應用應用分類趨勢預測推薦關聯類商品回歸分析實際應用預測銷售趨勢聚類實際應用分類關聯規則包括兩個階段從海量數據中找到高頻項
數據挖掘的流程與方法 1.任務:
關聯分析
聚類分析
分類分析
異常分析
特異組群分析
演變分析
2.方法:統計
在線處理分析
情報檢索
機器學習
分類
實際應用: 應用分類/趨勢預測/推薦關聯類商品
回歸分析
實際應用: 預測銷售趨勢
聚類
實際應用: 分類
關聯規則
包括兩個階段: 從海量數據中找到高頻項目組/產生關聯規則
實際應用: 預測客戶需求
Web數據挖掘
常用算法: PageRank算法/HITS算法/LOGSOM算法
問題: 用戶分類/用戶頁面停留時間/內容時效性/頁面鏈入鏈出/
專家系統
模式識別
神經網絡方法
神經網絡模型的種類:
用于分類預測和模式識別的前饋式: 函數型網絡/感知機
用于聯想記憶和優化算法的反饋式: 離散模型/連續模型
用于聚類的自組織映射: ART模型
3.步驟:one.業務理解
階段目標
明確商業問題和數據挖掘目標
制定項目計劃
工作任務
業務需求調研,問題背景
項目資源評估,確定資源需求
明確業務目標和成功的標準
挖掘目標確定,可行性,明確數據挖掘目標和成功標準
項目計劃制定,指導項目實施
實施要點
充分的需求調研和溝通交流
合理的資源、約束條件假設
合適的挖掘結果應用場景設定
two.數據理解
階段目標
確定建模所需用的數據
探索建模需要的目標變量
工作任務
數據字典編制,梳理內外部數據類型
明確數據業務指標含義
質量校驗,確保數據全面性和可用性
目標變量探索,為模型構建做準備
數據的數據量(維度和樣本大?。?/p>
數據的質量(缺失值、異常值、不一致性等)
數據的分布規律(各種統計指標)
實施要點
必備的內外部數據可獲取和可干預
數據一致性、完整性、準確性
目標因子初步分析確定
three.數據準備
階段目標
建立數據集市或寬表
工作任務
數據集市或寬表設計
將多個表信息進行整合:表之間的聯接/明細數據的匯總加工
處理數據質量問題: 缺失值/異常值
數據清洗、加載、轉換
數據的字段進行變換: 規范化/標準化
或都將數據進行映射變換,如Log變化
數值型按區間轉換成名詞型字段
特征工程
從業務角度加工新的計算指標
進行自動特征構建、特征選擇、特征降維
數據質量校驗
數據標準化
實施要點
高效的數據保障項目進度和質量
four.建立模型
階段目標
選擇合適的技術建模
實現數據挖掘目標
工作任務
技術選型,選擇合適的模型算法
樣本選取,確定訓練樣本、測試樣本和驗證樣本
模型建立,篩選變量、模型訓練、模型測試
模型評估,評估模型是否滿足數據挖掘目標
實施要點
合適的技術幫助實現挖掘目標
樣本數據真實反映業務需求
全面評估模型數據挖掘效果
five.檢驗模型
階段目標
進行模型的業務應用測試(A/B測試)
判斷是否實現商業目標
工作任務
模型試用,確定業務場景,進行模型應用測試,收集反饋效果
效果評價,對測試效果進行評估分析,判斷模型是否滿足商業目標
實施要點
合適的業務場景試用方案
全面科學的效果評價
six.結果部署
階段目標
把數據挖掘成果部署到商業環境,應用于生產
工作任務
規劃部署,制定部署計劃和方案
監控與維護,實時跟蹤,驗證商業目標達成情況
總結報告,經驗積累
實施要點
科學規劃,保障無縫部署
即時監控及維護響應,保障運營
全面的總結分析,積累經驗
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/45186.html
摘要:這是一個基于做的一個電商網站前端項目附帶前后端分離實現版本在分支,歡迎或項目地址項目預覽地址說明分支是單純的前端項目,分支為與后端接口結合的前端項目,附后端項目地址本項目僅供學習參考分支為純前端項目,所以登陸密碼是寫死的,體驗賬號密 MALL-VUE 這是一個基于VUE + VUEX + iView做的一個電商網站前端項目, 附帶前后端分離實現版本(在forMallServer分支),...
摘要:這是一個基于做的一個電商網站前端項目附帶前后端分離實現版本在分支,歡迎或項目地址項目預覽地址說明分支是單純的前端項目,分支為與后端接口結合的前端項目,附后端項目地址本項目僅供學習參考分支為純前端項目,所以登陸密碼是寫死的,體驗賬號密 MALL-VUE 這是一個基于VUE + VUEX + iView做的一個電商網站前端項目, 附帶前后端分離實現版本(在forMallServer分支),...
摘要:程序員不僅應致力于讓程序員失業,也應致力于讓所有人失業。源代碼公開是一個熱議話題,當問到對源代碼公開的個人觀點時,說到雖然對程序員是一件好事,可以讓程序員研究源代碼,但我并不認為所有軟件的源代碼必須公開,源代碼公開涉及到知識產權等各種問題。 為打破外界對程序員簡單平面的偏見,一系列程序員訪談正在進行中。 第一個接受訪談的程序員 Gemini,在 SegmentFault 主要負責 An...
閱讀 1391·2023-04-26 03:04
閱讀 2325·2019-08-30 15:44
閱讀 3727·2019-08-30 14:15
閱讀 3507·2019-08-27 10:56
閱讀 2703·2019-08-26 13:53
閱讀 2616·2019-08-26 13:26
閱讀 3075·2019-08-26 12:11
閱讀 3609·2019-08-23 18:21