利用Python抓取和解析網頁 3

對搜尋引擎、檔案索引、文件轉換、資料檢索、站點備份或遷移等應用程式來說，經常用到對網頁(即html檔案)的解析處理。事實上，通過python語言提供的各種模組，我們無需借助web伺服器或者web瀏覽器就能夠解析和處理html文件。

三、從html文件中提取文字

處理html文件的時候，我們常常需要從其中提取出所有的文字。使用htmlparser模組後，這項任務將變得非常簡單了。首先，我們需要定義乙個新的htmlparser類，以覆蓋handle_data()方法，該方法是用來解析並文字資料的。

定義好新的htmlparser類之後，需要建立乙個例項來返回htmlparser物件。然後，就可以使用urllib.urlopen(url)開啟html文件並讀取該html檔案的內容了。

為了解析html檔案的內容並顯示包含其中的文字，我們可以使用feed(data)函式將資料傳遞給htmlparser物件。htmlparser物件的feed函式將接收資料，並通過定義的htmlparser物件對資料進行相應的解析。要注意的是，如果傳給htmlparser的feed()函式的資料不完整的話，那麼不完整的標籤會儲存下來，並在下一次呼叫feed()函式時進行解析。當html檔案很大，需要分段傳送給解析器的時候，這個功能就會有用武之地了。下面是乙個具體的**示例：

import

htmlparser

import

urllib

urltext =

#定義html解析器

class

parsetext(htmlparser.htmlparser):

defhandle_data(self, data):

ifdata !='

\n'#建立html解析器的例項

lparser

=parsetext()

#把html檔案傳給解析器

上面**的執行輸出過長，在此略過

利用Python抓取和解析網頁 3

利用Python抓取和解析網頁上

利用Python抓取和解析網頁 1

Python抓取網頁

利用Python抓取和解析網頁 3

利用Python抓取和解析網頁 上

利用Python抓取和解析網頁 1

Python抓取網頁

相關推薦

利用Python抓取和解析網頁上