超級簡單的爬蟲,看Python如何爬取小說

2021-10-05 23:35:32 字數 1068 閱讀 5213

#- - - - 爬蟲軟體 - — - -

#從筆趣閣獲取**的內容,將內容寫到txt文件中

#開啟筆趣閣的**,開啟對應**的主頁,將**複製到python中即可

import re

import os

import requests

url = ""

txt = requests.get(url).content.decode("utf-8")

urlarray = url.split('/')

urlarray.remove(urlarray[3])

url = urlarray[0] + "//" + urlarray[2] + "/" #只保留筆趣閣的**

m1 = re.compile(r'') #獲取**的標題

print(m1.findall(txt)[0].center(23, '='))

file_name = m1.findall(txt)[0] + ".txt" #檔名稱

m2 = re.compile(r'(.+)')

raw = m2.findall(txt)

shj = [(i[1], url + i[0]) for i in raw] # i[1]為每一章節標題,url+i[0]為每章節的內容鏈結

print("目錄已載入完畢!")

m3 = re.compile(r'(.+)", "") #清除不需要的字元

nrl = nrl.replace("\r\n", "")

nrl = nrl.replace("。」", "」")

nrl = nrl.lstrip()

# nrl = " " + nrl

f.write(i[0])

f.write("\n\n")

nrlarray = nrl.split('。')

for j in nrlarray:

f.write(" " + j)

f.write("\n\n")

# f.write(nrl)

f.write("\n\n")

python爬蟲簡單 python爬蟲 簡單版

學過python的帥哥都知道,爬蟲是python的非常好玩的東西,而且python自帶urllib urllib2 requests等的庫,為爬蟲的開發提供大大的方便。這次我要用urllib2,爬一堆風景。先上重點 1 response urllib2.urlopen url read 2 soup...

Python 簡單的爬蟲

爬取的資料是 豆瓣電影top250 使用的python庫有 requests bs4的beautifulsoup pandas。通過requests爬取網頁資料,通過beautifulsoup解析網頁資料,通過pandas將資料儲存成excel csv格式。import requests 爬取資料 ...

簡單python爬蟲

一段簡單的 python 爬蟲程式,用來練習挺不錯的。讀出乙個url下的a標籤裡href位址為.html的所有位址 一段簡單的 python 爬蟲程式,用來練習挺不錯的。讀出乙個url下的a標籤裡href位址為.html的所有位址 usr bin python filename test.py im...