Python信息采集器使用輕量級關系型數據庫SQLite

loonggg 發布于2019-07-25 10:34 / 1498人閱讀

摘要：，引言自帶一個輕量級的關系型數據庫。作為后端數據庫，可以搭配建網站，或者為網絡爬蟲存儲數據。在一些場景下，網絡爬蟲可以使用存儲采集到的網頁信息。爬蟲打數機將在版本支持，不妨想想一下網絡爬蟲與打數機連接在一起會怎樣。

1，引言

Python自帶一個輕量級的關系型數據庫SQLite。這一數據庫使用SQL語言。SQLite作為后端數據庫，可以搭配Python建網站，或者為python網絡爬蟲存儲數據。SQLite還在其它領域有廣泛的應用，比如HTML5和移動端。

Python標準庫中的sqlite3提供該數據庫的接口。

2，Python對SQLite進行操作示例

以下的代碼將創建一個簡單的關系型數據庫，為一個書店存儲書的分類和價格。數據庫中包含兩個表：category用于記錄分類，book用于記錄某本書的信息。一本書歸屬于某一個分類，因此book有一個外鍵(foreign key)，指向catogory表的主鍵id。

2.1 創建數據庫

首先，創建數據庫，以及數據庫中的表。在使用connect()連接數據庫后，就可以通過定位指針cursor，來執行SQL命令：

import sqlite3

# test.db is a file in the working directory.
conn = sqlite3.connect("test.db")

c = conn.cursor()

# create tables
c.execute("""CREATE TABLE category
      (id int primary key, sort int, name text)""")
c.execute("""CREATE TABLE book
      (id int primary key,
       sort int,
       name text,
       price real,
       category int,
       FOREIGN KEY (category) REFERENCES category(id))""")

# save the changes
conn.commit()

# close the connection with the database
conn.close()

SQLite的數據庫是一個磁盤上的文件，如上面的test.db，因此整個數據庫可以方便的移動或復制。test.db一開始不存在，所以SQLite將自動創建一個新文件。

利用execute()命令，執行了兩個SQL命令，創建數據庫中的兩個表。創建完成后，保存并斷開數據庫連接。

2.2 插入數據

上面創建了數據庫和表，確立了數據庫的抽象結構。下面將在同一數據庫中插入數據：

import sqlite3

conn = sqlite3.connect("test.db")
c  = conn.cursor()

books = [(1, 1, "Cook Recipe", 3.12, 1),
            (2, 3, "Python Intro", 17.5, 2),
            (3, 2, "OS Intro", 13.6, 2),
           ]

# execute "INSERT"
c.execute("INSERT INTO category VALUES (1, 1, "kitchen")")

# using the placeholder
c.execute("INSERT INTO category VALUES (?, ?, ?)", [(2, 2, "computer")])

# execute multiple commands
c.executemany("INSERT INTO book VALUES (?, ?, ?, ?, ?)", books)

conn.commit()
conn.close()

插入數據同樣可以使用execute()來執行完整的SQL語句。SQL語句中的參數，使用"?"作為替代符號，并在后面的參數中給出具體值。這里不能用Python的格式化字符串，如"%s"，因為這一用法容易受到SQL注入攻擊。

也可以用executemany()的方法來執行多次插入，增加多個記錄。每個記錄是表中的一個元素，如上面的books表中的元素。

2.3 查詢

在執行查詢語句后，Python將返回一個循環器，包含有查詢獲得的多個記錄。循環讀取，也可以使用sqlite3提供的fetchone()和fetchall()方法讀取記錄：

import sqlite3

conn = sqlite3.connect("test.db")
c = conn.cursor()

# retrieve one record
c.execute("SELECT name FROM category ORDER BY sort")
print(c.fetchone())
print(c.fetchone())

# retrieve all records as a list
c.execute("SELECT * FROM book WHERE book.category=1")
print(c.fetchall())

# iterate through the records
for row in c.execute("SELECT name, price FROM book ORDER BY sort"):
    print(row)

2.4 更新與刪除

可以更新某個記錄，或者刪除記錄：

conn = sqlite3.connect("test.db")
c = conn.cursor()

c.execute("UPDATE book SET price=? WHERE id=?",(1000, 1))
c.execute("DELETE FROM book WHERE id=2")

conn.commit()
conn.close()

也可以直接刪除整張表：

c.execute("DROP TABLE book")

如果刪除test.db，那么整個數據庫會被刪除。

3，總結

sqlite3是一個SQLite的接口。想要熟練的使用SQLite數據庫，需要學習關系型數據庫的知識。在一些場景下，Python網絡爬蟲可以使用SQLite存儲采集到的網頁信息。GooSeeker爬蟲DS打數機將在7.x版本支持SQLite，不妨想想一下Python網絡爬蟲與DS打數機連接在一起會怎樣。

4，文檔修改歷史

2016-07-07：V1.0，首次發布

GPU云服務器云服務器數據信息采集系統大數據信息采集 ios中sqlite的使用 ios_sqlite使用

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://specialneedsforspecialkids.com/yun/38037.html

Python爬蟲建站入門手記——從零開始建立采集站點（三：采集入庫）

摘要：進入正題第三部分，采集入庫。內容如下加上這個可以記住問題在的位置，方便以后更新或者其他操作都很直白，關于各個可以看看的文檔。代碼如下添加方法采集當前分頁正在抓取分頁這個地方寫得很笨，之前該在加上這個屬性。上回，我已經大概把爬蟲寫出來了。我寫了一個內容爬蟲，一個爬取tag里面內容鏈接的爬蟲其實還差一個，就是收集一共有哪些tag的爬蟲。但是這里先不說這個問題，因為我上次忘了這次又不...

amuqiao 2019-07-24 17:55 評論0 收藏0
一步一步教你如何搭建自己的視頻聚合站

摘要：不過因為各個平臺互相挖人的關系，導致關注的一些主播分散到了各個直播平臺，來回切換有點麻煩，所以萌生了做一個視頻聚合站的想法。后續我們會對這三個部分的功能做逐一展開說明。正則處理要求比較高，但是幾乎能應對所有的情況，屬于大殺器。前言作為一個爐石傳說玩家，經常有事沒事開著直播網站看看大神們的精彩表演。不過因為各個平臺互相挖人的關系，導致關注的一些主播分散到了各個直播平臺，來回切換有點麻...

justjavac 2019-07-30 14:20 評論0 收藏0
ORM-像對象一樣對待數據

摘要：顧名思義，就是將關系型數據庫與中的對象關聯起來，提供了一種操作數據的簡便方式，相當于對數據庫加了一層更友好的接口。新增數據對象方法方法直接創建數據對象，需要調用方法保存到數據庫中。咱們編程教室有不少同學，學完了基礎課程，掌握了一定的編程能力，開始做項目了。然后很可能遇到一個問題：管理數據。課程里有講過用文件保存數據，還有 pickle 、 csv 等模塊輔助。但對于稍微復雜一點的數據...

U2FsdGVkX1x 2019-07-31 10:06 評論0 收藏0