Mongdb中常用的數據清洗

lbool 發布于2019-06-26 17:52 / 2454人閱讀

摘要：解決方案查詢重復數據刪除重復數據去除重復組的第一個元數據，得到除第一個之外的其他元組刪除這些重復的數據刪除重復數據版本復制里的數據到另一個中過濾重復字段并統計總記錄數添加過濾條件

前言

分享一些Mongdb常用的數據清洗方式

注："Exceeded memory limit for $group, but didn"t allow external sort. Pass allowDiskUse:true to opt in." 原因與解決:

原因

  大數據計算、數據統計時，每個計算任務（job或task）都會使用獨立有限的內存空間，mongodb沒有提供復雜的內存分配模型（任務調度算法），僅限定每個stage最多使用100M內存，如果超過此值將終止計算并返回error；為了支持較大數據集合的處理，我們可以指定“allowDiskUse”參數將“溢出”的數據寫入本地的臨時文件中（臨時的collection），這個參數我們通常需要設定為true。

解決方案：

{allowDiskUse:true}

查詢重復數據

db.feedImg_all.aggregate([
    {
        $group: { _id: {"mvid": "$mvid","feed_id":"$feed_id"},count: {$sum: 1},dups: {$addToSet: "$_id"}}
    },
    {
        $match: {count: {$gt: 1}}
    }
],{allowDiskUse:true})

刪除重復數據

db.xiuxiu_all.aggregate([
    {
        $group: { _id: {"mvid": "$mvid","feed_id":"$feed_id"},count: {$sum: 1},dups: {$addToSet: "$_id"}}
    },
    {
        $match: {count: {$gt: 1}}
    }
],{allowDiskUse:true}).forEach(function(doc){
    doc.dups.shift();                       // 去除重復組的第一個元數據_id，得到除第一個之外的其他元組
    db.xiuxiu_all.remove({_id: {$in: doc.dups}}); // remove()刪除這些重復的數據
})

刪除重復數據(python版本)

# -*- coding:utf-8 -*-
import pymongo
from pymongo import DeleteOne
"""
@author: lcx
@time: 2018/11/15
@desc:

"""

pipeline = [
    {
        "$group": {
            "_id": {"mvid": "$mvid", "feed_id": "$feed_id"},
            "count": {"$sum": 1},
            "dups": {
                "$addToSet": "$_id"
            }
        },
    },
    {
        "$match": {
            "count": {
                "$gt": 1
            }
        }
    }
]

myclient = pymongo.MongoClient(host="m3005.test.com",port=3005,connect=False)
db = myclient.deepnet_test

if __name__ == "__main__":
    map_id = map(lambda doc: doc["dups"][1:], db["xiuxiu_all"].aggregate(pipeline=pipeline,allowDiskUse=True))
    list_id = [item for sublist in map_id for item in sublist]
    print(db["xiuxiu_all"]
          .bulk_write(list(map(lambda _id: DeleteOne({"_id": _id}), list_id)))
          .bulk_api_result)

復制collection里的數據到另一個collection中

db.xiuxiu_all.find().forEach(function(x){
    db.xiuxiu_all_bak.insert(x);
})

過濾重復字段并統計總記錄數

db.feedImg_all.aggregate(
  [
     {$match:{"createTime": {"$gte":  1541606400, "$lt": 1541692800}}}, // 添加過濾條件
     {$project:{"feedId": true}},  
     {$group:{_id: "$feedId"}}, 
     {$group:{_id: null, count: {$sum:1}}}
 ], {allowDiskUse: true})

GPU云服務器云服務器 linux系統中的常用命令現在企業中常用的分布式存儲服務清洗中黑洞清洗中

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://specialneedsforspecialkids.com/yun/19411.html

Mongdb中常用的數據清洗

摘要：解決方案查詢重復數據刪除重復數據去除重復組的第一個元數據，得到除第一個之外的其他元組刪除這些重復的數據刪除重復數據版本復制里的數據到另一個中過濾重復字段并統計總記錄數添加過濾條件前言分享一些Mongdb常用的數據清洗方式注：Exceeded memory limit for $group, but didnt allow external sort. Pass allowDisk...

KaltZK 2019-07-31 11:20 評論0 收藏0
MongDB 數據庫副本集配置

摘要：登陸叢機此時，叢機已經在副本集群中了，進行最后一個操作這樣在主機上的操作就會同步到從機上了。本文目的為了在各個MongDB之間實現多節點之間的數據自動備份，提高容災性能。MongoDB復制是將數據同步在多個服務器的過程。復制提供了數據的冗余備份，并在多個服務器上存儲數據副本，提高了數據的可用性，并可以保證數據的安全性。mongodb的復制至少需要兩個節點。其中一個是主節點，負責處理...

jubincn 2019-06-26 17:06 評論0 收藏0
用node.js和mongDB建立網站

摘要：設計數據庫模型數據庫字段定義傳入模式編譯，生成構造函數文檔實例化，調用模型批量查詢單條數據的查詢單條數據的刪除數據庫的正刪改查，及后臺開發邏輯文件目錄用node.js和mongDB建立網站參考資料：1.jade學習https://www.jianshu.com/p/e2a...http://www.nooong.com/docs/ja...2.app.js的結構設計（作用）http...

Little_XM 2019-06-26 17:32 評論0 收藏0
用node.js和mongDB建立網站

摘要：設計數據庫模型數據庫字段定義傳入模式編譯，生成構造函數文檔實例化，調用模型批量查詢單條數據的查詢單條數據的刪除數據庫的正刪改查，及后臺開發邏輯文件目錄用node.js和mongDB建立網站參考資料：1.jade學習https://www.jianshu.com/p/e2a...http://www.nooong.com/docs/ja...2.app.js的結構設計（作用）http...

Bmob 2019-08-22 14:01 評論0 收藏0
使用Pandas&NumPy進行數據清洗的6大常用方法

摘要：在這個教程中，我們將利用的和包來進行數據清洗。在很多情況下，使用唯一的值作為索引值識別數據字段是非常有幫助的。清洗數據字段到現在為止，我們移除了不必要的列并改變了我們的索引變得更有意義。作者：xiaoyu微信公眾號：Python數據科學知乎：Python數據分析師數據科學家花了大量的時間清洗數據集，并將這些數據轉換為他們可以處理的格式。事實上，很多數據科學家聲稱開始獲取和清洗數據...

siberiawolf 2019-07-31 11:07 評論0 收藏0