#- - - - 爬蟲軟體 - — - -
#從筆趣閣獲取**的內容,將內容寫到txt文件中
#開啟筆趣閣的**,開啟對應**的主頁,將**複製到python中即可
import re
import os
import requests
url = ""
txt = requests.get(url).content.decode("utf-8")
urlarray = url.split('/')
urlarray.remove(urlarray[3])
url = urlarray[0] + "//" + urlarray[2] + "/" #只保留筆趣閣的**
m1 = re.compile(r'') #獲取**的標題
print(m1.findall(txt)[0].center(23, '='))
file_name = m1.findall(txt)[0] + ".txt" #檔名稱
m2 = re.compile(r'(.+)')
raw = m2.findall(txt)
shj = [(i[1], url + i[0]) for i in raw] # i[1]為每一章節標題,url+i[0]為每章節的內容鏈結
print("目錄已載入完畢!")
m3 = re.compile(r'(.+)", "") #清除不需要的字元
nrl = nrl.replace("\r\n", "")
nrl = nrl.replace("。」", "」")
nrl = nrl.lstrip()
# nrl = " " + nrl
f.write(i[0])
f.write("\n\n")
nrlarray = nrl.split('。')
for j in nrlarray:
f.write(" " + j)
f.write("\n\n")
# f.write(nrl)
f.write("\n\n")
python爬蟲簡單 python爬蟲 簡單版
學過python的帥哥都知道,爬蟲是python的非常好玩的東西,而且python自帶urllib urllib2 requests等的庫,為爬蟲的開發提供大大的方便。這次我要用urllib2,爬一堆風景。先上重點 1 response urllib2.urlopen url read 2 soup...
Python 簡單的爬蟲
爬取的資料是 豆瓣電影top250 使用的python庫有 requests bs4的beautifulsoup pandas。通過requests爬取網頁資料,通過beautifulsoup解析網頁資料,通過pandas將資料儲存成excel csv格式。import requests 爬取資料 ...
簡單python爬蟲
一段簡單的 python 爬蟲程式,用來練習挺不錯的。讀出乙個url下的a標籤裡href位址為.html的所有位址 一段簡單的 python 爬蟲程式,用來練習挺不錯的。讀出乙個url下的a標籤裡href位址為.html的所有位址 usr bin python filename test.py im...