網路爬蟲css選擇器知識貼(一)

2021-08-22 16:18:38 字數 1114 閱讀 2040

css選擇器:

#container 選擇id為container的元素

.container 選擇所有class包含container的元素

* 選擇所有元素

div a 選取所有div下所有a元素

ul + p 選取ul後面的第乙個p元素

ul ~p 選取與ul相鄰的所有p元素

a:nth-child(2) 選取下面第二個標籤,如果是a的話則選取,不是則不取

a:nth-child(2n) 選取第偶數個a元素

a:nth-child(2n+1) 選取第奇數個a元素

li.multi-chosen > a 選取class為multi-chosen的li的所有a元素

a[title] 選取所有擁有title屬性的a元素

a[href=」 選取所有href屬性為的a元素

a[href*=」www.lagou.com」] 選取所有href屬性值中包含www.lagou.com的a元素

a[href^=」http」] 選取所有href屬性值中以http開頭的a元素

div:not(#content-container) 選取所有id為非content-container 的div

css例項:

response.css('title::text').extract()        輸出標籤title的文字內容

response.css('base::attr(href)').extract()   輸出標籤base的屬性href的內容

response.css('a[href*=image]::attr(href)').extract()     輸出屬性href內容中含有image的標籤a的屬性href的內容

response.css('a[href*=image] img::attr(src)').extract()   輸出屬性href內容中含有image的標籤a下面的標籤img的屬性src的內容

response.xpath('//a[contains(@href, "image")]/text()').re_first(r'name:\s*(.*)')    使用正規表示式:

name: my image 1

輸出:     u'my image 1'

網路爬蟲之css選擇器

container 選擇id為container的元素 container 選擇所有class包含container的元素 div not content container 選取所有id為非content container 的div div a 選取所有div下所有a元素 ul p 選取ul後面...

爬蟲相關知識之CSS選擇器

列子 描述.intro 選擇class intro 的所有節點 name 選擇id name 的所有節點 選擇所有節點 p選擇所有p節點 div,p 選擇所有div節點和p節點 div p 選擇div節點內部的所有p節點 div p 選擇父節點為div的所有p節點 div p 選擇緊接在div節點之...

爬蟲 css選擇器 和 xpath選擇器

ret soup.select my p ret soup.select body p 子子孫孫 ret soup.select body p 直接子節點 兒子 ret soup.select body p 0 text 直接子節點 兒子 xpath xpath 是一門在 xml 文件中查詢資訊的語...