csdn部落格爬蟲更新

幾天沒上csdn部落格，不知道為什麼給我csdn首頁改了，不是以前的網頁布局了，所以之前寫的csdn部落格爬蟲也就宣告失效，所以今天修改了下之前寫的xpath爬蟲，正則爬蟲就沒改了，改的有點麻煩

# -*- coding:gbk -*-
import sys
import requests
import re
from lxml import etree
from lxml import html as ht
defdownload
(url):
html=requests.get(url,headers=headers).text
return html
html2=download("")
selector2=etree.html(html2)
pagelist=selector2.xpath('//*[@id="papelist"]/a[last()-2]/text()')[0]
#這裡有有個潛在的問題，在我部落格寫到5頁以上時出現...後無法判斷頁數
pagelist=int(pagelist)
for page in range(1,pagelist+1):
url="/article/list/"+str(page)
html=download(url)
selector=etree.html(html)
titlelist=selector.xpath('//*[@class="link_title"]/a/text()')
datelist=selector.xpath('//*[@class="article_manage"]/span[1]/text()')
#/text()!!!!!!!!!!!!!!!!!!!!!!!
number=len(titlelist)
for i in range(1,number+1):
tree=ht.fromstring(titlelist[i-1])
strcom=tree.xpath('string(.)')
print(datelist[i-1]+"----"+strcom)

爬蟲練習 CSDN部落格歸檔

獲取指定網頁的頁面資訊 headers try 如果響應的狀態碼為404並不會丟擲一場，那麼如何讓處理?response requests.get url,headers headers response.raise for status 如果返回的狀態碼不是200，那麼丟擲異常 except ex...

基於WebMagic的CSDN部落格爬蟲

剛入職沒有多久，開發任務不是太重，很多功能的開發不能全部參與，閒暇之餘，mentor給了乙個小的開發任務把美周內部共享的電子書全部爬取下來其實剛接到這個任務不知道怎麼入手，便查了相關的爬蟲工具，如nutch heritrix crawler4j webmagic等等。其中webmagic是國人黃...

Python爬蟲刷CSDN部落格閱讀數

本部落格僅做技術交流。刷部落格訪問量可恥。原始碼語言為python3。這裡採用西刺免費 ip 先爬取這些免費的ip，然後偽裝成這些ip訪問指定的部落格，從而增加指定文章的閱讀數。以下原始碼以博主的csdn賬號為例，將url自行修改即可訪問自己的博文。注意刷的太快伺服器並不會增加文章的閱讀數，可自行...

csdn部落格爬蟲更新

爬蟲練習 CSDN部落格歸檔

基於WebMagic的CSDN部落格爬蟲

Python爬蟲刷CSDN部落格閱讀數

相關推薦