Python簡單爬蟲

一. 獲取整個頁面的資料

#coding:utf-8
import urllib
defgethtml
(url):
page = urllib.urlopen(url)
html = page.read()
return html
html = gethtml("")
print html

二. 篩選需要的資料

利用正規表示式來獲取想要的資料

page = urllib.urlopen(url) #開啟url位址

建立getimg()函式,用於在獲取的整個頁面中篩選需要的鏈結.

re模組主要是包含了正規表示式

re.compile()可以把正規表示式編譯成乙個正規表示式物件

re.findall()方法讀取html中包含imgre(正規表示式)的資料

執行指令碼將得到整個頁面中包含的url

三. 將篩選後的資料儲存到本地

把篩選後的資料通過for迴圈儲存到本地,這裡預設是儲存在當前資料夾中

#coding:utf-8
import urllib
import re
defgethtml
(url):
page = urllib.urlopen(url) #開啟url位址
python爬蟲簡單 python爬蟲 簡單版
學過python的帥哥都知道，爬蟲是python的非常好玩的東西，而且python自帶urllib urllib2 requests等的庫，為爬蟲的開發提供大大的方便。這次我要用urllib2，爬一堆風景。先上重點 1 response urllib2.urlopen url read 2 soup...
簡單python爬蟲
一段簡單的 python 爬蟲程式，用來練習挺不錯的。讀出乙個url下的a標籤裡href位址為.html的所有位址 一段簡單的 python 爬蟲程式，用來練習挺不錯的。讀出乙個url下的a標籤裡href位址為.html的所有位址 usr bin python filename test.py im...
Python簡單爬蟲
一 什麼是爬蟲 爬蟲 一段自動抓取網際網路資訊的程式。價值 網際網路資料為我所用。二 爬蟲架構 執行流程 三 幾種實現方式 四 url管理器 定義 管理待抓取url集合和已抓取url集合 防止重複抓取 防止迴圈抓取 url print 第一種方法 response1 urllib2.urlopen ...

Python簡單爬蟲

python爬蟲簡單 python爬蟲 簡單版

簡單python爬蟲

Python簡單爬蟲

相關推薦

python爬蟲簡單 python爬蟲簡單版