python 搜尋頁面標籤

2022-03-30 20:13:48 字數 1423 閱讀 6655

import urllib2

from sgmllib import sgmlparser

class listname(sgmlparser):

def __init__(self):

sgmlparser.__init__(self)

self.is_h4=""

self.name=

def start_h4(self,attrs):

self.is_h4=1

def end_h4(self):

self.is_h4=""

def handle_data(self,text):

if self.is_h4==1:

#content = urllib2.urlopen('').read()

listname = listname()

listname.feed(content)

for item in listname.name:

print item.decode('gbk')

顯示以下內容:

虛擬票務

數碼市場

家電市場

**市場

**市場

童裝童鞋

女鞋市場

男鞋市場

內衣市場

箱包市場

服飾配件

珠寶飾品

美容市場

母嬰市場

家居市場

日用市場

食品/保健

運動鞋服

運動戶外

汽車摩托

玩具市場

文化用品市場

愛好市場

生活服務

另一種方式:

pyquery

pyquery是jquery在python中的實現,能夠以jquery的語法來操作解析html文件,十分方便。使用前需要安裝,easy_install pyquery即可,或者ubuntu下

sudo

apt-get install python-pyquery

以下例子:

from pyquery import pyquery as pyq

doc=pyq(url=r''

)cts=doc(

'.market-cat'

)for i in cts:

print

'===='

,pyq(i).find

('h4'

).text()

,'===='

for j in pyq(i).find

('.sub'

): print pyq(j).text()

,print

'\n'

---------------

**)

python獲取頁面所有a標籤下href的值

coding utf 8 python 2.7 標籤操作 from bs4 import beautifulsoup import urllib.request import re 如果是 可以用這個辦法來讀取網頁 html doc req urllib.request.request html d...

python爬取指定的搜尋頁面

功能 進行爬蟲專案編寫 import requests if name main useragent 請求載體身份標識 ua檢測 當使用者訪問乙個門戶 的時候,會自動的檢測對應的訪問載體的身份標識,如果檢測到載體的身份 標識為某一款瀏覽器,則表明當前的請求時乙個正常的請求,是普通使用者通過瀏覽器物件...

python 如何獲取頁面所有a標籤下href的值

nofcmboq coding utf 8 python 2.7 標籤操作 from bs4 import beautifulsoup import urllib.request import re 如果是 可以用這個辦法來讀取網頁 html doc req urllib.request.reque...