python 搜尋頁面標籤

import urllib2
from sgmllib import sgmlparser
class listname(sgmlparser):
def __init__(self):
sgmlparser.__init__(self)
self.is_h4=""
self.name=
def start_h4(self,attrs):
self.is_h4=1
def end_h4(self):
self.is_h4=""
def handle_data(self,text):
if self.is_h4==1:
#content = urllib2.urlopen('').read()
listname = listname()
listname.feed(content)
for item in listname.name:
print item.decode('gbk')

顯示以下內容：

虛擬票務

數碼市場

家電市場

**市場

童裝童鞋

女鞋市場

男鞋市場

內衣市場

箱包市場

服飾配件

珠寶飾品

美容市場

母嬰市場

家居市場

日用市場

食品/保健

運動鞋服

運動戶外

汽車摩托

玩具市場

文化用品市場

愛好市場

生活服務

另一種方式：

pyquery

pyquery是jquery在python中的實現，能夠以jquery的語法來操作解析html文件，十分方便。使用前需要安裝，easy_install pyquery即可，或者ubuntu下

sudo

apt-get install python-pyquery

以下例子：

from pyquery import pyquery as pyq
doc=pyq(url=r''
)cts=doc(
'.market-cat'
)for i in cts:
print
'===='
,pyq(i).find
('h4'
).text()
,'===='
for j in pyq(i).find
('.sub'
): print pyq(j).text()
,print
'\n'
－－－－－－－－－－－－－－－
**）

python獲取頁面所有a標籤下href的值

coding utf 8 python 2.7 標籤操作 from bs4 import beautifulsoup import urllib.request import re 如果是可以用這個辦法來讀取網頁 html doc req urllib.request.request html d...

python爬取指定的搜尋頁面

功能進行爬蟲專案編寫 import requests if name main useragent 請求載體身份標識 ua檢測當使用者訪問乙個門戶的時候，會自動的檢測對應的訪問載體的身份標識，如果檢測到載體的身份標識為某一款瀏覽器，則表明當前的請求時乙個正常的請求，是普通使用者通過瀏覽器物件...

python 如何獲取頁面所有a標籤下href的值

nofcmboq coding utf 8 python 2.7 標籤操作 from bs4 import beautifulsoup import urllib.request import re 如果是可以用這個辦法來讀取網頁 html doc req urllib.request.reque...

python 搜尋頁面標籤

python獲取頁面所有a標籤下href的值

python爬取指定的搜尋頁面

python 如何獲取頁面所有a標籤下href的值

相關推薦