爬蟲大作業之爬取筆趣閣小說

2022-05-29 13:24:10 字數 2152 閱讀 4117

# _*_ coding:utf-8 _*_

import requests

import threading

from bs4 import beautifulsoup

import re

import os

import time

req_header=

req_url_base='' #**主位址

req_url=req_url_base+"wapbook/2016.html" #單獨一本**位址

txt_section=req_url_base+"wapbook/"+'2016_1196115.html' #某一章頁面位址

# 請求當前章節頁面 params為請求引數

r=requests.get(str(txt_section),params=req_header)

# #soup轉換

soup=beautifulsoup(r.text,"html.parser")

# #獲取章節名稱

# print(soup)

section_name=soup.select('#novelbody .content_title h1')[0].text

# print(section_name)

# #獲取章節文字

section_text=soup.select('#novelbody .content_novel #novelcontent p' )[0].text

# for ss in section_text.select("script"): #刪除無用項

# ss.decompose()

# #按照指定格式替換章節內容,運用正規表示式

section_text=re.sub( '\s+', '\r\n\t', section_text).strip('\r\n')

# print(section_text)

# print('章節名:'+section_name)

# print("章節內容:\n"+section_text)

from wordcloud import wordcloud

fo = open('1.txt', "ab+") #開啟**檔案

# 以二進位制寫入章節題目 需要轉換為utf-8編碼,否則會出現亂碼

fo.write(('\r' + section_name + '\r\n').encode('utf-8'))

# 以二進位制寫入章節內容

fo.write((section_text).encode('utf-8'))

fo.close() #關閉**檔案

f = open('1.txt','r',encoding="utf-8").read()

wordcloud = wordcloud(font_path='./fonts/simhei.ttf',background_color="white",width=1000, height=860, margin=2).generate(f)

# width,height,margin可以設定屬性

#wordcloud = wordcloud(font_path = r'd:\fonts\simkai.ttf').generate(f)

# 你可以通過font_path引數來設定字型集

#background_color引數為設定背景顏色,預設顏色為黑色

import matplotlib.pyplot as plt

plt.imshow(wordcloud)

plt.axis("off")

plt.show()

wordcloud.to_file('test.png')

# 儲存,但是在第三模組的例子中 大小將會按照 mask 儲存

這次的作業還是有難度的,我花了挺多時間的,主要問題就是那個我最後生成的詞云沒有中文,只是邊框,最後是通過網上查資料找出了問題所在——wordcloud不支援中文,最後新增了中文字型的路徑,就成功了!還要繼續努力喲!

初級爬蟲爬取筆趣閣小說

import requests from pyquery import pyquery as pq def get content a response requests.get a response.encoding gbk doc pq response.text text doc conten...

Python爬蟲 筆趣閣小說爬取

import requests from lxml import etree以 我有百萬技能點 為例,在筆趣閣搜尋進入目錄頁,複製目錄頁url 對目錄頁的每個章節的url進行爬取,分析網頁利用xpath定位每個章節的url然後進行爬取,然後重新構造url。目錄每一章節的url href html e...

用爬蟲爬取筆趣閣小說

時間 2019年3月4日19 16 06 功能 爬取筆趣閣任何 from urllib import request from bs4 import beautifulsoup 此函式用來獲取每章對應的 並儲存 defsecondopenurl url,ch name 請求每章詳細內容 date r...