成功抓取csdn閱讀量過萬博文

2021-08-11 20:47:32 字數 567 閱讀 7517

var username = "miniblog";

閱讀數在2w的才儲存

先選乙個

提取鏈結時,只提取visited_num>2w的

//*[@id="rasss"]

如何不提取其它url,只提取

呢必須含有aritcle關鍵字

xpath提取頁面中script裡宣告的變數值

response.xpath('/html/head/script[1]').re('username = "(.+)"')

response.xpath('/html/head/script[1]').re("filename = '(.+)'")

response.xpath('/html/head/script[1]').re("commentscount = (.+);")

注意元素是從1開始的 ,如div[1]表示第乙個,不是div[0]

xpath最外層最好用單引號!除非必須使用雙引號(比如裡面有單引號了)

這種頁面目前不能爬

不要執迷於技術了,把學一門技術所花的精力用一半到其它領域,如財經等,可能會有更多收穫。

抓取csdn的資料

如有不明白的地方歡迎加qq群 14670545 質量不行,後面採集起來卡,原因是正則我太菜了,沒有開多執行緒採集。下面我舉例 目標頁面是有圖有真相 看看採集後的效果 下面是採集到的每個帖子樓主的內容以及一些簡單的顯示。之所以沒有顯示出來,因為csdn是用的乙個專門的伺服器,設定了防盜煉,這個自己搗鼓...

CSDN部落格專家申請成功

又乙個值得紀念的日子,上週六申請csdn部落格專家,今天中午審批通過。使用csdn好幾年了,從未想到能把部落格一步步的寫到這個地步。曾經,寫過一段部落格,只是為了記錄和分享。中間由於工作的變動和繁忙中斷了很久。直到有一天,登入部落格時,發現粉絲從2個變成了3個,頓感要對得起這個多出來的粉絲。另外加上...

抓取csdn部落格的所有文章url

輸入部落格的主網域名稱,就可以抓取這個部落格所有的文章編號。coding utf8 import string import urllib2 import re import time import random class csdn spider def init self,url self.my...