利用Python抓取和解析網頁 3

2021-06-03 21:00:15 字數 1430 閱讀 9156

對搜尋引擎、檔案索引、文件轉換、資料檢索、站點備份或遷移等應用程式來說,經常用到對網頁(即html檔案)的解析處理。事實上,通過python語言提供的各種模組,我們無需借助web伺服器或者web瀏覽器就能夠解析和處理html文件。

三、從html文件中提取文字

處理html文件的時候,我們常常需要從其中提取出所有的文字。使用htmlparser模組後,這項任務將變得非常簡單了。首先,我們需要定義乙個新的htmlparser類,以覆蓋handle_data()方法,該方法是用來解析並文字資料的。

定義好新的htmlparser類之後,需要建立乙個例項來返回htmlparser物件。然後,就可以使用urllib.urlopen(url)開啟html文件並讀取該html檔案的內容了。

為了解析html檔案的內容並顯示包含其中的文字,我們可以使用feed(data)函式將資料傳遞給htmlparser物件。htmlparser物件的feed函式將接收資料,並通過定義的htmlparser物件對資料進行相應的解析。要注意的是,如果傳給htmlparser的feed()函式的資料不完整的話,那麼不完整的標籤會儲存下來,並在下一次呼叫feed()函式時進行解析。當html檔案很大,需要分段傳送給解析器的時候,這個功能就會有用武之地了。下面是乙個具體的**示例:

import

htmlparser

import

urllib

urltext =

#定義html解析器

class

parsetext(htmlparser.htmlparser):

defhandle_data(self, data):

ifdata !='

\n'#建立html解析器的例項

lparser 

=parsetext()

#把html檔案傳給解析器

上面**的執行輸出過長,在此略過

利用Python抓取和解析網頁 上

對搜尋引擎 檔案索引 文件轉換 資料檢索 站點備份或遷移等應用程式來說,經常用到對網頁 即html檔案 的解析處理。事實上,通過python語言提供的各種模組,我們無需借助web伺服器 或 者web瀏覽器就能夠解析和處理html文件。本文將詳細介紹如何利用python抓取和解析網頁。首先,我們介紹乙...

利用Python抓取和解析網頁 1

利用python抓取和解析網頁 二 對搜尋引擎 檔案索引 文件轉換 資料檢索 站點備份或遷移等應用程式來說,經常用到對網頁 即html檔案 的解析處理。事實上,通過python語言提供的 對搜尋引擎 檔案索引 文件轉換 資料檢索 站點備份或遷移等應用程式來說,經常用到對網頁 即html檔案 的解析處...

Python抓取網頁

在python中,使用urllib2這個元件來抓取網頁。coding utf 8 urllib2是python的乙個獲取urls uniform resource locators 的元件。import urllib2 它以urlopen函式的形式提供了乙個非常簡單的介面 response urll...