摘要:先將里面的表格預處理清理下復雜格式把第一行置為英文字段名將導出為格式這時在中導入會提示是因為會使用系統編碼到處的文件編碼在中使用系統自帶的轉換該文件為格式具體參數可以參考這樣轉換好的文件就是使用導入安裝即自帶導入工具
先將excel里面的表格預處理,清理下復雜格式,把第一行置為英文字段名
將xls導出為csv格式: points.csv
這時在mongoimport中導入會提示:
exception:Invalid UTF8 character detected
是因為excel會使用系統編碼到處GBK的文件編碼.
在linux-mint中,使用系統自帶的iconv轉換該文件為utf8格式
iconv -f gbk -t UTF-8 points.csv > points_utf8.csv
具體參數可以參考:
iconv --help
這樣轉換好的文件就是points_utf8.csv
使用mongoimport導入(安裝mongodb即自帶導入工具)
mongoimport -d test -c students --type csv --file ./points_utf8.csv --headerline --upsert
同樣 具體參數解釋可以參見 mongoimport -h
points里面的內容就會被轉換到mongodb:test db的students集合中.
每一行作為一個object有一個唯一的id,之前在表格中定義的headerline為key的document插入.
{ "_id" : ObjectId("553edfdac4e551239d3c975b"), "name" : "張三", "teamName" : "某某班", "ss1" : 12, "ss2" : "", "ss3" : 37, "ss4" : 45, "ss5" : "", "ss6" : "", "ss7" : 18, "ss8" : 24, "ss9" : 17, "ss10" : 11, "ss11" : 9, "ss12" : 15, "ss13" : 10, "ss14" : 13, "ss15" : 24, "ss16" : 26, "po1" : 21, "po2" : 38, "fn1" : "", "fn2" : 25, "fn3" : 23 }
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/18759.html
摘要:查看源碼下載頁面并處理提取數據觀察該網站結構可知該頁面下所有電影包含在標簽下。使用語句獲取該標簽在標簽中遍歷每個標簽獲取單個電影的信息。以電影名字為例清洗數據其余部分詳見源碼頁面跳轉檢查后頁標簽。 查看源碼 1 下載頁面并處理 DOWNLOAD_URL = http://movie.douban.com/top250/ html = requests.get(url).text tr...
摘要:舉個例子,要處理的文件或者文件是以作為分隔符的,每行有這么三個數據域,那么首先我們需要在數據庫中創建這個表創建成功以后就可以導入了。 文/freenik 將外部數據導入(import)數據庫是在數據庫應用中一個很常見的需求。其實這就是在數據的管理和操作中的ETL (Extract, transform, load)的L (Load)部分,也就是說,將特定結構(structure)或者格...
閱讀 511·2021-10-09 09:44
閱讀 2073·2021-09-02 15:41
閱讀 3551·2019-08-30 15:53
閱讀 1829·2019-08-30 15:44
閱讀 1283·2019-08-30 13:10
閱讀 1188·2019-08-30 11:25
閱讀 1458·2019-08-30 10:51
閱讀 3365·2019-08-30 10:49