csdn部落格爬蟲更新

2021-08-07 01:36:20 字數 1101 閱讀 1236

幾天沒上csdn部落格,不知道為什麼給我csdn首頁改了, 不是以前的網頁布局了,所以之前寫的csdn部落格爬蟲也就宣告失效,所以今天修改了下之前寫的xpath爬蟲,正則爬蟲就沒改了,改的有點麻煩

# -*- coding:gbk -*-

import sys

import requests

import re

from lxml import etree

from lxml import html as ht

defdownload

(url):

html=requests.get(url,headers=headers).text

return html

html2=download("")

selector2=etree.html(html2)

pagelist=selector2.xpath('//*[@id="papelist"]/a[last()-2]/text()')[0]

#這裡有有個潛在的問題,在我部落格寫到5頁以上時出現...後無法判斷頁數

pagelist=int(pagelist)

for page in range(1,pagelist+1):

url="/article/list/"+str(page)

html=download(url)

selector=etree.html(html)

titlelist=selector.xpath('//*[@class="link_title"]/a/text()')

datelist=selector.xpath('//*[@class="article_manage"]/span[1]/text()')

#/text()!!!!!!!!!!!!!!!!!!!!!!!

number=len(titlelist)

for i in range(1,number+1):

tree=ht.fromstring(titlelist[i-1])

strcom=tree.xpath('string(.)')

print(datelist[i-1]+"----"+strcom)

爬蟲練習 CSDN部落格歸檔

獲取指定網頁的頁面資訊 headers try 如果響應的狀態碼為404並不會丟擲一場,那麼如何讓處理?response requests.get url,headers headers response.raise for status 如果返回的狀態碼不是200,那麼丟擲異常 except ex...

基於WebMagic的CSDN部落格爬蟲

剛入職沒有多久,開發任務不是太重,很多功能的開發不能全部參與,閒暇之餘,mentor給了乙個小的開發任務 把美周內部共享的電子書全部爬取下來 其實剛接到這個任務不知道怎麼入手,便查了相關的爬蟲工具,如nutch heritrix crawler4j webmagic等等。其中webmagic是國人黃...

Python爬蟲刷CSDN部落格閱讀數

本部落格僅做技術交流。刷部落格訪問量可恥。原始碼語言為python3。這裡採用西刺免費 ip 先爬取這些免費的ip,然後偽裝成這些ip訪問指定的部落格,從而增加指定文章的閱讀數。以下原始碼以博主的csdn賬號為例,將url自行修改即可訪問自己的博文。注意 刷的太快伺服器並不會增加文章的閱讀數,可自行...