Python爬蟲之pyquery獲取不到元素

今天在做爬蟲專案的時候出現了乙個錯誤，通過pyquery獲取不到元素。


from pyquery import pyquery as pq
html = '''
'''doc = pq(html)
element = doc('.warp ul li:first-child')
print(element)

執行結果：

none

但是pyquery中的選擇器並沒有錯誤，但是執行結果一直是none。這是為什麼呢？後來通過檢視相關文件得知，pyquery解析的是html型別的字串，但是上面的型別是xhtml，所以會獲取不到元素。可以在pq()方法初始化字串時加上parser="html"告訴pyquery使用html規範解析，即可解決上述問題。

from pyquery import pyquery as pq
html = '''
'''doc = pq(html,parser="html")
element = doc('.warp ul li:first-child')
if element:
print(element)
else:
print('none')

執行結果：

this is the test1

Python爬蟲之爬蟲概述

知識點模擬瀏覽器，傳送請求，獲取響應網路爬蟲又被稱為網頁蜘蛛，網路機械人就是模擬客戶端主要指瀏覽器傳送網路請求，接收請求響應，一種按照一定的規則，自動地抓取網際網路資訊的程式。知識點了解爬蟲的概念爬蟲在網際網路世界中有很多的作用，比如資料採集抓取招聘的招聘資訊資料分析挖掘...

python爬蟲感悟 Python之爬蟲有感（一）

urllib.request.request url headers headers user agent 是爬蟲和反爬蟲鬥爭的第一步，傳送請求必須帶user agent 使用流程 1 建立請求物件 request urlllib.request.request url 2 傳送請求獲取響應物件 r...

python爬蟲header 爬蟲之header

有些不會同意程式直接用上面的方式進行訪問，如果識別有問題，那麼站點根本不會響應，所以為了完全模擬瀏覽器的工作，我們需要設定一些headers 的屬性。首先，開啟我們的瀏覽器，除錯瀏覽器f12，我用的是chrome，開啟網路監聽，示意如下，比如知乎，點登入之後，我們會發現登陸之後介面都變化了，出現乙...

Python爬蟲之pyquery獲取不到元素

Python爬蟲之爬蟲概述

python爬蟲感悟 Python之爬蟲有感（一）

python爬蟲header 爬蟲之header

相關推薦