python 爬蟲 練習 爬小說排行榜跳2個網頁

2021-09-11 13:41:18 字數 1528 閱讀 5037

這個只爬了乙個排行榜其他的忘了寫。。。但都一樣可以看我寫的另乙個那個注釋比較全,都大同小異

# -*- coding:utf-8 -*-

import re

import sys

import os

from time import sleep

from bs4 import beautifulsoup

import requests

reload(sys)

sys.setdefaultencoding('utf-8')

headers=
def port(url,localpath):

req = requests.get(url, headers=headers).text

soup = beautifulsoup(req, 'html.parser')

nums = soup.find_all(class_='nums')

pp= nums[0].get_text().strip()

book_name = soup.find_all(class_='book-name')

pp2 = "書名: "+book_name[0].get_text().strip()

au_name = soup.find_all(class_='au-name')

yp = soup.find_all(class_='fr rank-r')

pp4 ='月票排行: '+ yp[0].get_text().replace('\n',"").strip()

print pp4

if not os.path.exists(localpath): # 新建資料夾

os.mkdir(localpath)

fn = open(localpath+"tt.txt",'a+')

ff=pp2+" "+pp3+" "+pp+" "+pp4+"\n"

print "正在寫入"+ff

fn.write(ff)

fn.close()

def xs():

url=''

req=requests.get(url,headers=headers).text

soup=beautifulsoup(req,'html.parser')

list=soup.find_all(class_='rank_i_bname fl')//找到class是這個玩意的就是點進去的第2個網頁

i=0for i in range(0,len(list)):

url1 = re.findall(r'href="(.*?/book/.*?)"',str(list[i]))#獲取href中有book的鏈結

path='e:/desktop/img/'

uipath = unicode(path, 'utf-8')

port(str(url1).strip("['").strip("']"),uipath)

if __name__ == '__main__':

xs():

python爬蟲小練習 小說爬取

import requests from bs4 import beautifulsoup if name main headers 對首頁的頁面資料進行爬取 url page text requests.get url url,headers headers text 在首頁中解析出章節的標題和詳...

python爬蟲爬網路小說

最近閒的蛋疼想看一些爽文 於是只能自己來爬一篇完整版的 進第一章,檢視源 發現 內容在.裡面 爬內容分了兩步 先爬.裡面的,再爬裡面的。但是不能只爬一章,還要繼續爬,找下一章的鏈結,在下一章裡面 還要爬標題,在裡面 於是分了四個正規表示式 story pattern1 re.compile r re...

Python爬蟲例項,爬取小說

import pprint import requests from bs4 import beautifulsoup 獲取原始碼 defget source url r requests.get url if r.status code 200 print r.status code 錯誤 rai...