批量抓取csdn部落格列表文章,簡化後轉為pdf儲存

2021-06-28 18:12:35 字數 441 閱讀 1447

標籤:blog python

簡介

這是乙個簡單的python指令碼。目前實現的功能只能將某個指定csdn部落格的所有博文精簡網頁後,只保留標題和內容,然後轉為pdf,以博文標題為名稱儲存在本地。

update

新版本支援**高亮外掛程式。

[todo]

usage

需要安裝這些python模組:

beautifulsoup

pip install beautifulsoup
需要安裝這些軟體:

wkhtmltopdf

sudo apt-get install wkhtmltopdf

抓取csdn部落格的所有文章url

輸入部落格的主網域名稱,就可以抓取這個部落格所有的文章編號。coding utf8 import string import urllib2 import re import time import random class csdn spider def init self,url self.my...

批量匯出某個簡書使用者的所有文章列表和文章超連結

既然我是程式設計師,沒有這個功能我就自己實現乙個。最開始我寫了乙個nodejs應用,如下 var request require request var jsdom require jsdom var jsdom jsdom.jsdom const prefix const page u 99b87...

Python 爬取CSDN部落格文章

新建乙個module,用於根據使用者名稱來獲取文章的url coding utf 8 from bs4 import beautifulsoup import requests 獲取部落格文章數量 def get page size user name article list url user n...