初等爬蟲的學習過程1

閒來無事，學習一下爬蟲的編寫過程，總歸也算是python的重點應用方式啊。首先先對爬蟲做乙個總結，爬蟲就是按照乙個乙個的鏈結爬滿網路，然後將需要的內容儲存下來。目前只是初級爬蟲的編寫，主要目的是學習流程。

1、爬蟲爬蟲首先要從乙個鏈結開始，就顯示蜘蛛一開始搭建的那根線，從那根線之爬滿每乙個鏈結，然後從這些鏈結中再向外爬，由此才可以爬完乙個**，或者再打一點爬滿全網。搜尋引擎就是爬蟲功能的乙個重要例項

2、首先獲取初始鏈結，這次編寫我們從真愛網開始玩起，目的是為了學習技術，首先使用python的urllib庫，這個庫可以直接獲取網頁的源**，具體使用方式如下：

def gethtml(url):

page=urllib.urlopen(url)

html=page.read()

return html

這樣就可以直接獲取珍愛網首頁的html資訊再用

print gethtml(將資訊列印。單還要注意編碼問題

2、在上一步裡我們獲得了珍愛網的首頁html，單很明顯首頁是不會展示大量的的，許多的資訊需要登入之後才能取得，在這時候urllib庫就力不從心了，此時我選擇selenium來進行模擬登入和以後的搜尋操作

3、對於登入搜尋這類簡單的html操作，基本可以略過直接上**：

def
zhenai_login
(myusername,mypassword):
browser = webdriver.firefox()
browser.get('')
time.sleep(3)
username = browser.find_element_by_id('jcloginname')
username.send_keys(str(myusername))
password = browser.find_element_by_id('jcloginpass')
password.send_keys(mypassword)
logon = browser.find_element_by_link_text('登入')
logon.click()
time.sleep(3)
search=browser.find_element_by_link_text('搜尋')
search.click()
time.sleep(3)
return browser

此時我們就得到了乙個登入後的搜尋條件的webdriver物件，後面可以直接使用這個物件獲取介面的html資訊

def
scroll
(driver):
driver.execute_script(""" 
(function () 
else 
} 
settimeout(f, 1000); 
})(); 
""")

直接將在網頁介面載入js**，使之進行從上往下的翻頁，就我估算每翻一次業大約有20張被載入，因此要獲取大約500張就需要迴圈翻頁25次，要是10000張就需要500次，希望你的瀏覽器可以挺住

def
getimage
(html):
reg =r']*src\s*=\s*"([^"]*)"[^>]*>'
imgre=re.compile(reg)
imglist=re.findall(imgre,html)
return imglist

從函式中可以看出正則的重要內容為以

def
downloadimage
(imglist):
count=1
for img in imglist:
try:
urllib.urlretrieve(img,filename=u"e:/珍愛網/%s.jpg"%count)
except exception,e:
print
'something si wroing:'+str(e)
count+=1

很簡單的**就不細說了，就主要使用rulretrive()函式，注意使用異常捕獲，要不只要有乙個鏈結出現問題，那整個函式就斷掉了

7、最後貼一下簡單的成果（成果就不貼了笑哭了）

初等爬蟲的學習過程1

爬蟲學習（1）

Magical爬蟲學習 1

爬蟲學習筆記1

初等爬蟲的學習過程1

爬蟲學習（1）

Magical爬蟲 學習 1

爬蟲學習筆記1

相關推薦

Magical爬蟲學習 1