爬取韓寒部落格

2021-07-14 02:36:28 字數 1500 閱讀 7464

# -*- coding:utf-8 -*-

__author__ = 'fybhp'

import urllib2

from allfiledir import allfilrdir

import os

links = [''] * 7

n = 0

page = 0

while n < 7:

#將七頁部落格目錄的url放入links列表中.

links[n] = '' + str(n + 1) + '.html'

n += 1

while page < 7:

# 定義要建立的目錄

mkpath = allfilrdir + '/' + str(page + 1)

ifnot os.path.exists(mkpath):

print mkpath + u' 建立成功'

os.mkdir(mkpath)

else:

print mkpath + u' 目錄已存在'

#content為部落格目錄頁面的html**字串

content = urllib2.urlopen(links[page]).read()

url = [''] * 100

filename = [''] * 100

i = 0

set_local = content.find(r')

start = content.find(r'href', set_local)

end = content.find(r'html', start)

while set_local != 0

and i < 100:

url[i] = content[start + 6:end + 4]

#通過find方法的第二個引數指定開始位置,使得對字串的操作一直在往後進行.

set_local = content.find(r', end)

start = content.find(r'href', set_local)

end = content.find(r'html', start)

i += 1

j = 0

while url[j] != ''

and j < 50:

filename = url[j][url[j].find(r'blog_'):]

con = urllib2.urlopen(url[j]).read()

open(mkpath + '/' + filename, 'w').write(con)

print

'downloading', url[j]

j += 1

else:

print

'page' + str(page + 1) + 'ok'

page += 1

else:

print

'all finished!'

爬取部落格評論

通過抓包獲取資料 還要找到真實的 url 位址 多數在 networt xhr 中 import requests import json link headers r requests.get link,headers headers print 頁面狀態響應碼 r.status code 此時已...

WebCollector爬取CSDN部落格

新聞 部落格爬取是資料採集中常見的需求,也是最容易實現的需求。一些開發者利用httpclient和jsoup等工具也可以實現這個需求,但大多數實現的是乙個單執行緒爬蟲,並且在url去重和斷點爬取這些功能上控制地不好,爬蟲框架可以很好地解決這些問題,開源爬蟲框架往往都自帶穩定的執行緒池 url去重機制...

Python 爬取CSDN部落格文章

新建乙個module,用於根據使用者名稱來獲取文章的url coding utf 8 from bs4 import beautifulsoup import requests 獲取部落格文章數量 def get page size user name article list url user n...