Python中PyQuery庫的使用總結

2021-07-26 02:38:17 字數 2174 閱讀 4838

pyquery庫是jquery的python實現,可以用於解析html網頁內容,我個人寫過的一些抓取網頁資料的指令碼就是用它來解析html獲取資料的。他的官方文件位址是:今天重新看了一遍整個文件,把它的一些使用方法整理了一下,做個記錄。

使用方法

from pyquery import pyquery as pq

1.可載入一段html字串,或乙個html檔案,或是乙個url位址,

例:d=pq("hello

")d=pq(filename=path_to_html_file)

d=pq(url='')注意:此處url似乎必須寫全

2.html()和text() ——獲取相應的html塊或文字塊,

例:p=pq("")

p('head').html()#返回hello

p('head').text()#返回hello

3.根據html標籤來獲取元素,

例:d=pq('test 1

test 2

')d('p')#返回[,

print d('p')#返回test 1

test 2

print d('p').html()#返回test 1

注意:當獲取到的元素不只乙個時,html()、text()方法只返回首個元素的相應內容塊

4.eq(index) ——根據給定的索引號得到指定元素

接上例,若想得到第二個p標籤內的內容,則可以:

print d('p').eq(1).html() #返回test 2

5.filter() ——根據類名、id名得到指定元素,例:

d=pq("test 1

test 2

")d('p').filter('#1') #返回

d('p').filter('.2') #返回

6.find() ——查詢巢狀元素,例:

d=pq("test 1

test 2

")d('div').find('p')#返回[, ]

d('div').find('p').eq(0)#返回

7.直接根據類名、id名獲取元素,例:

d=pq("test 1

test 2

")d('#1').html()#返回test 1

d('.2').html()#返回test 2

8.獲取屬性值,例:

d=pq("hello

")d('a').attr('href')#返回

d('p').attr('id')#返回my_id

9.修改屬性值,例:

d('a').attr('href', '')把href屬性修改為了baidu

10.addclass(value) ——為元素新增類,例:

d=pq('

')d.addclass('my_class')#返回

11.hasclass(name) #返回判斷元素是否包含給定的類,例:

d=pq("

")d.hasclass('my_class')#返回true

12.children(selector=none) ——獲取子元素,例:

d=pq("hello

world

")d.children()#返回[, ]

d.children('#2')#返回

13.parents(selector=none)——獲取父元素,例:

d=pq("hello

world

")d('p').parents()#返回

d('#1').parents('span')#返回

d('#1').parents('p')#返回

14.clone() ——返回乙個節點的拷貝

15.empty() ——移除節點內容

16.nextall(selector=none) ——返回後面全部的元素塊,例:

d=pq("hello

world

d('p:first').nextall()#返回[,

d('p:last').nextall()#返回[

17.not_(selector) ——返回不匹配選擇器的元素,例:

d=pq("test 1

test 2

")d('p').not_('#2')#返回

pyquery還有其他一些用法,這裡沒有一一整理出來,更多更全的方法可以直接去看它的文件。

Python中PyQuery庫的使用

pyquery庫是jquery的python實現,可以用於解析html網頁內容,我個人寫過的一些抓取網頁資料的指令碼就是用它來解析html獲取資料的。它的官方文件位址是 今天重新看了一遍整個文件,把它的一些使用方法整理了一下,做個記錄。使用方法 from pyquery import pyquery...

python中PyQuery庫用法分享

pyquery庫就是python中的乙個解析庫。作用十分強大,使用上也是相當的靈活,能夠實現初始化字串 初始化 html 檔案 初始化請求響應等多種場景,另外,本身中的css選擇器,也是經常被大家使用的物件,結合以上的大致內容總結,接下來,我們一起詳細的了解使用內容。安裝 pip3 install ...

利用python中的pyquery庫簡單的抓取資料

記得還是7月份下旬的時候無意看到pyquery庫,能做爬蟲,還不需要寫正則什麼的,還是蠻實用的,簡單的寫了一些 抓取網路資料,裝的是anaconda 預設是2.7版本,如下 from pyquery import pyquery as pq import pandas as pd from date...