python 爬蟲 爬取序列部落格文章列表

2022-01-16 12:11:22 字數 1311 閱讀 2112

python中寫個爬蟲真是太簡單了

import urllib.request

from pyquery import pyquery as pq

# 根據url獲取內容並解碼為utf-8

def gethtml(url):

page = urllib.request.urlopen(url)

html = page.read()

html = html.decode('utf-8')

return html

# 解析返回的html

def getartical(html, results):

doc = pq(html)

# data = doc('.searchatclist .searchatc_top a')

data = doc('.atc_title a')

for x in data.items():

title = x.text()

href = x.attr('href')

if title.find('教你**票') >= 0:

# 標題被截斷的需要根據url獲取完整的標題

if title.find('…') >= 0:

title = getarticaldetail(x.attr('href'))

r = '[' + title + '](' + href + ')'

index = title[5 : title.index(':')]

# 獲取文章標題

def getarticaldetail(url):

html = gethtml(url)

doc = pq(html)

data = doc('.articaltitle h2')

title = data.text()

return title

blog3 = ''

# 1.html

# 15.html

# blog = ''

# blog2 = ''

results =

# 總共有23頁

for i in range(1, 24):

url = blog3 + str(i) + '.html'

print(url)

html = gethtml(url)

getartical(html, results)

# 排序後輸出

results.sort()

for x in results:

print(x[1])

Python 爬蟲爬取網頁

工具 python 2.7 import urllib import urllib2 defgetpage url 爬去網頁的方法 request urllib.request url 訪問網頁 reponse urllib2.urlopen request 返回網頁 return response...

python爬蟲爬取策略

在爬蟲系統中,待抓取url佇列是很重要的一部分。待抓取url佇列中的url以什麼樣的順序排列也是乙個很重要的問題,因為這涉及到先抓取那個頁面,後抓取哪個頁面。而決定這些url排列順序的方法,叫做抓取策略。下面重點介紹幾種常見的抓取策略 一 深度優先遍歷策略 深度優先遍歷策略是指網路爬蟲會從起始頁開始...

python爬蟲 seebug爬取

1.找相關的標籤一步一步往下查詢 2.有cookie才能查詢 3.用import re而不用from re import 是為了防止衝突 coding utf 8 from requests import import re from bs4 import beautifulsoup as bs h...