Python實現簡單的爬蟲

2021-07-27 08:57:54 字數 1217 閱讀 6422

import urllib

import re

defgethtml

(url):

page = urllib.urlopen(url)

html = page.read()

return html

import re

import urllib

defgethtml

(url):

page = urllib.urlopen(url)

html = page.read()

return html

defgetimg

(html):

reg = r'src="(.+?\.png)"'

imgre = re.compile(reg)

imglist = re.findall(imgre,html)

return imglist

html = gethtml("")

print getimg(html)

我們又建立了getimg()函式,用於在獲取的整個頁面中篩選需要的連線。re模組主要包含了正規表示式:

re.compile()可以把正規表示式編譯成乙個正規表示式物件。

re.findall()方法讀取html中包含image的資料。

執行指令碼將得到整個頁面中包含的url位址。

三、將頁面篩選的資料儲存到本地

把篩選的位址通過for迴圈遍歷儲存到本地,**如下:

Python實現簡單爬蟲

簡單爬蟲構架 時序圖 管理待抓取url集合和已抓取url集合 通過兩個列表 已抓取url列表,未抓取url的列表 防止重複抓取 防止迴圈抓取 request.add header user agent mozilla 5.0 偽裝成火狐瀏覽器 urllib2.install opener opene...

Python實現簡單爬蟲

簡單爬蟲構架 時序圖 管理待抓取url集合和已抓取url集合 通過兩個列表 已抓取url列表,未抓取url的列表 防止重複抓取 防止迴圈抓取 request.add header user agent mozilla 5.0 偽裝成火狐瀏覽器 urllib2.install opener opene...

python實現簡單爬蟲 Python實現簡單爬蟲

簡介 爬蟲架構 1 url管理器 3 網頁分析器 4 爬蟲呼叫器 5 價值資料使用 爬蟲實現 1 排程器實現 coding utf 8 import url manager import html import html parser import html outputer import url ...