爬蟲練習 CSDN部落格歸檔

2021-09-25 23:33:55 字數 2459 閱讀 3165

:"""獲取指定網頁的頁面資訊"""

headers =

try:

# 如果響應的狀態碼為404並不會丟擲一場, 那麼如何讓處理?

response = requests.get(url, headers=headers)

response.raise_for_status(

)# 如果返回的狀態碼不是200, 那麼丟擲異常

except exception as e:

print

('[-] 爬取失敗:'

, e)

else

:# print('[+]' + response.url, "爬取成功....")

# print(len(response.text))

return response.text

defparser_content

(html)

:"""解析頁面內容: 獲取部落格名稱和部落格鏈結"""

# 1. 例項化soup物件

from bs4 import beautifulsoup

soup = beautifulsoup(html,

'lxml'

)# print(soup)

# print(soup.prettify())

# 2. 分析頁面, 獲取內容;

# print(soup.title.text)

# 獲取部落格分類, 用列表儲存

classify_lists = soup.body.find(

'ul'

, class_=

'colu_cate_list'

).find_all(

'li'

)for cl in classify_lists:

classify_name = cl.a.text # 獲取分類名,用於後續建立檔案

classify_url = cl.a.get(

'href'

)# 獲取分類的連線

article_content = get_content(classify_url)

# 獲取當前分類的頁面資訊

article_soup = beautifulsoup(article_content,

'lxml'

)# 獲取文章資訊,列表儲存

article_lists = article_soup.body.find(

'ul'

, class_=

'colu_author_c'

).find_all(

'li'

)# print(article_lists)

# print(soup.body.prettify())

# print(soup.body.div)

ifnot os.path.exists(

'blog_classify'):

# 建立儲存分類md檔案的目錄

os.makedirs(

'blog_classify'

) f =

open

('./blog_classify/%s.md'

% classify_name,

'w')

# 以當前分類命名

for article in article_lists:

# 儲存當前分類的所有文章標題連線

# 獲取標題

blogname = article.h4.a.text

# 獲取鏈結

blogurl = article.h4.a.get(

'href'

) f.write(

'- [%s](%s)\n'

%(blogname, blogurl)

) f.close(

)if __name__ ==

'__main__'

: url =

''content = get_content(url)

parser_content(content)

csdn部落格爬蟲更新

幾天沒上csdn部落格,不知道為什麼給我csdn首頁改了,不是以前的網頁布局了,所以之前寫的csdn部落格爬蟲也就宣告失效,所以今天修改了下之前寫的xpath爬蟲,正則爬蟲就沒改了,改的有點麻煩 coding gbk import sys import requests import re from...

基於WebMagic的CSDN部落格爬蟲

剛入職沒有多久,開發任務不是太重,很多功能的開發不能全部參與,閒暇之餘,mentor給了乙個小的開發任務 把美周內部共享的電子書全部爬取下來 其實剛接到這個任務不知道怎麼入手,便查了相關的爬蟲工具,如nutch heritrix crawler4j webmagic等等。其中webmagic是國人黃...

Python爬蟲刷CSDN部落格閱讀數

本部落格僅做技術交流。刷部落格訪問量可恥。原始碼語言為python3。這裡採用西刺免費 ip 先爬取這些免費的ip,然後偽裝成這些ip訪問指定的部落格,從而增加指定文章的閱讀數。以下原始碼以博主的csdn賬號為例,將url自行修改即可訪問自己的博文。注意 刷的太快伺服器並不會增加文章的閱讀數,可自行...