Python 抓取網頁的庫和工具

2021-09-24 19:09:52 字數 829 閱讀 6841

twisted

抓網頁,它有優秀的非同步事件驅動的架構,常見的協定都已經有實做,包括http、smtp等等

getpage("").addcallback(printpage)

一行就可以抓網頁

lxml

效率高,支援xpath

def getnextpagelink(self, tree):

"""get next page link

@param tree: tree to get link

@return: return url of next page, if there is no next page, return none

"""paging = tree.xpath("//span[@class='paging']")

if paging:

links = paging[0].xpath("./a[(text(), '%s')]" % self.localtext['next'])

if links:

return str(links[0].get('href'))

return none

listprice = tree.xpath("//*[@class='priceblocklabel']/following-sibling::*")

if listprice:

detail['listprice'] = self.stripmoney(listprice[0].text)

使用的工具

firefox的外掛程式,xpath checker等xpath的工具,可以先用它來確定抓到的元素是正確的,然後firebug在檢視網頁結構

PHP Snoopy網頁抓取工具

snoopy是乙個php類,用來模仿web瀏覽器的功能,它能完成獲取網頁內容和傳送表單的任務。下面是它的一些特徵 1 方便抓取網頁的內容11111111111 2 方便抓取網頁的文字 去掉html 3 方便抓取網頁的鏈結 4 支援 主機 5 支援基本的使用者 密碼認證模式 6 支援自定義使用者age...

Python抓取網頁

在python中,使用urllib2這個元件來抓取網頁。coding utf 8 urllib2是python的乙個獲取urls uniform resource locators 的元件。import urllib2 它以urlopen函式的形式提供了乙個非常簡單的介面 response urll...

Python網頁抓取

coding utf 8 import urllib 匯入模組 print dir urllib 檢視urllib方法 print help urllib.urlopen 檢視幫助文件 url 定義 html urllib.urlopen url 開啟url print html.read urlo...