Python爬蟲之pyquery獲取不到元素

2021-09-03 07:11:41 字數 759 閱讀 8895

今天在做爬蟲專案的時候出現了乙個錯誤,通過pyquery獲取不到元素。

from pyquery import pyquery as pq

html = '''

'''doc = pq(html)

element = doc('.warp ul li:first-child')

print(element)

執行結果:

none
但是pyquery中的選擇器並沒有錯誤,但是執行結果一直是none。這是為什麼呢?後來通過檢視相關文件得知,pyquery解析的是html型別的字串,但是上面的型別是xhtml,所以會獲取不到元素。可以在pq()方法初始化字串時加上parser="html"告訴pyquery使用html規範解析,即可解決上述問題。

from pyquery import pyquery as pq

html = '''

'''doc = pq(html,parser="html")

element = doc('.warp ul li:first-child')

if element:

print(element)

else:

print('none')

執行結果:

this is the test1

Python爬蟲之爬蟲概述

知識點 模擬瀏覽器,傳送請求,獲取響應 網路爬蟲 又被稱為網頁蜘蛛,網路機械人 就是模擬客戶端 主要指瀏覽器 傳送網路請求,接收請求響應,一種按照一定的規則,自動地抓取網際網路資訊的程式。知識點 了解 爬蟲的概念 爬蟲在網際網路世界中有很多的作用,比如 資料採集 抓取招聘 的招聘資訊 資料分析 挖掘...

python爬蟲感悟 Python之爬蟲有感(一)

urllib.request.request url headers headers user agent 是爬蟲和反爬蟲鬥爭的第一步,傳送請求必須帶user agent 使用流程 1 建立請求物件 request urlllib.request.request url 2 傳送請求獲取響應物件 r...

python爬蟲header 爬蟲之header

有些 不會同意程式直接用上面的方式進行訪問,如果識別有問題,那麼站點根本不會響應,所以為了完全模擬瀏覽器的工作,我們需要設定一些headers 的屬性。首先,開啟我們的瀏覽器,除錯瀏覽器f12,我用的是chrome,開啟網路監聽,示意如下,比如知乎,點登入之後,我們會發現登陸之後介面都變化了,出現乙...