python pyquery 解析html資料

2021-09-22 01:50:42 字數 1656 閱讀 8452

python pyquery 解析html資料

1、windows環境cmd安裝擴充套件 pip install pyquery

3、pyquery 官方文件:

api.html

4、**

from pyquery import pyquery as pq

headers =

d = pq(url="",encoding="utf-8", headers=headers)

#print(d('div.title h2 a').text()) #獲取所有一級分類

#print(d('#brand-a h3 a').text()) #獲取所有二級分類

items = d('div.title h2 a').items() #獲取結果集

index = 0

for item in items:

print( "①" + item.text())

twoandthreecategoryarr = d('div').find('.brand-wate***ll').eq(index).items() #二級和**分類的div

for twoandthreecategory in twoandthreecategoryarr:

twocategoryarr = twoandthreecategory.find('div#brand-a').items() #單個二級和**

for twocategory in twocategoryarr:

twocategoryval = twocategory.find('h3 a').text()

print( "\t②" + twocategoryval)

threecategoryarr = twocategory.find('div.con p a').items()

for threecategory in threecategoryarr:

threecategoryval = threecategory.text()

print( "\t\t③" + threecategoryval)

index += 1

5、遇到的問題

(1)、http:403 禁止訪問

解決方案:加上header頭

詳細解釋:使用pyquery是遇到的乙個403的問題

(2)、報錯:attributeerror: 'set' object has no attribute 'items'

原因:頭寫錯了。

√  'user-agent': 'mozilla/5.0 (windows nt 10.0; win64; x64; rv:66.0) gecko/20100101 firefox/66.0'

× 'user-agent: mozilla/5.0 (windows nt 10.0; win64; x64; rv:66.0) gecko/20100101 firefox/66.0'

執行效果

6、相關位址    

python 解析html網頁

python中的jquery pyquery庫使用小結

python pyquery 使用總結

1.呼叫pyquery庫,使用pq為代號,大家通用 from pyquery import pyquery as pq2.把網頁初始化 doc pq html 3.過濾自己想要的內容,如果是id的話前面帶 如果是class的話前面帶.如果是標籤的話直接不用帶 items doc id items d...

JSON解析 XML解析

json解析 1大括號代表字典 2中括號 小括號 代表陣列 3冒號的左右兩邊分別為鍵和值 key value 4資料和資料之間 用逗號隔開 我們在本機上建立乙個file.xml,進行解析,並取出年齡35 json解析 本地讀取student.xm l檔案nsstring jstr nsstring ...

JSON解析 XML解析

主要是顯示地理位置和天氣以及溫度。對網路請求下來的json資料進行解析。import viewcontroller.h define kweatherurl inte ce viewcontroller property weak,nonatomic iboutlet uilabel citylab...