Python實現簡單的爬蟲

import urllib
import re
defgethtml
(url):
page = urllib.urlopen(url)
html = page.read()
return html

import re
import urllib
defgethtml
(url):
page = urllib.urlopen(url)
html = page.read()
return html
defgetimg
(html):
reg = r'src="(.+?\.png)"'
imgre = re.compile(reg)
imglist = re.findall(imgre,html)
return imglist 
html = gethtml("")
print getimg(html)

我們又建立了getimg()函式,用於在獲取的整個頁面中篩選需要的連線。re模組主要包含了正規表示式：

re.compile()可以把正規表示式編譯成乙個正規表示式物件。

re.findall()方法讀取html中包含image的資料。

執行指令碼將得到整個頁面中包含的url位址。

三、將頁面篩選的資料儲存到本地

把篩選的位址通過for迴圈遍歷儲存到本地，**如下：

Python實現簡單爬蟲

簡單爬蟲構架時序圖管理待抓取url集合和已抓取url集合通過兩個列表已抓取url列表，未抓取url的列表防止重複抓取防止迴圈抓取 request.add header user agent mozilla 5.0 偽裝成火狐瀏覽器 urllib2.install opener opene...

Python實現簡單爬蟲

python實現簡單爬蟲 Python實現簡單爬蟲

簡介爬蟲架構 1 url管理器 3 網頁分析器 4 爬蟲呼叫器 5 價值資料使用爬蟲實現 1 排程器實現 coding utf 8 import url manager import html import html parser import html outputer import url ...

Python實現簡單的爬蟲

Python實現簡單爬蟲

Python實現簡單爬蟲

python實現簡單爬蟲 Python實現簡單爬蟲

相關推薦