爬蟲大作業之爬取筆趣閣小說

# _*_ coding:utf-8 _*_
import requests
import threading
from bs4 import beautifulsoup
import re
import os
import time
req_header=
req_url_base='' #**主位址
req_url=req_url_base+"wapbook/2016.html" #單獨一本**位址
txt_section=req_url_base+"wapbook/"+'2016_1196115.html' #某一章頁面位址
# 請求當前章節頁面 params為請求引數
r=requests.get(str(txt_section),params=req_header)
# #soup轉換
soup=beautifulsoup(r.text,"html.parser")
# #獲取章節名稱
# print(soup)
section_name=soup.select('#novelbody .content_title h1')[0].text
# print(section_name)
# #獲取章節文字
section_text=soup.select('#novelbody .content_novel #novelcontent p' )[0].text
# for ss in section_text.select("script"): #刪除無用項
# ss.decompose()
# #按照指定格式替換章節內容，運用正規表示式
section_text=re.sub( '\s+', '\r\n\t', section_text).strip('\r\n')
# print(section_text)
# print('章節名:'+section_name)
# print("章節內容：\n"+section_text)
from wordcloud import wordcloud
fo = open('1.txt', "ab+") #開啟**檔案
# 以二進位制寫入章節題目 需要轉換為utf-8編碼，否則會出現亂碼
fo.write(('\r' + section_name + '\r\n').encode('utf-8'))
# 以二進位制寫入章節內容
fo.write((section_text).encode('utf-8'))
fo.close() #關閉**檔案
f = open('1.txt','r',encoding="utf-8").read()
wordcloud = wordcloud(font_path='./fonts/simhei.ttf',background_color="white",width=1000, height=860, margin=2).generate(f)
# width,height,margin可以設定屬性
#wordcloud = wordcloud(font_path = r'd:\fonts\simkai.ttf').generate(f)
# 你可以通過font_path引數來設定字型集
#background_color引數為設定背景顏色,預設顏色為黑色
import matplotlib.pyplot as plt
plt.imshow(wordcloud)
plt.axis("off")
plt.show()
wordcloud.to_file('test.png')
# 儲存,但是在第三模組的例子中 大小將會按照 mask 儲存
這次的作業還是有難度的，我花了挺多時間的，主要問題就是那個我最後生成的詞云沒有中文，只是邊框，最後是通過網上查資料找出了問題所在——wordcloud不支援中文，最後新增了中文字型的路徑，就成功了！還要繼續努力喲！
 初級爬蟲爬取筆趣閣小說
import requests from pyquery import pyquery as pq def get content a response requests.get a response.encoding gbk doc pq response.text text doc conten...
Python爬蟲 筆趣閣小說爬取
import requests from lxml import etree以 我有百萬技能點 為例，在筆趣閣搜尋進入目錄頁，複製目錄頁url 對目錄頁的每個章節的url進行爬取，分析網頁利用xpath定位每個章節的url然後進行爬取，然後重新構造url。目錄每一章節的url href html e...
用爬蟲爬取筆趣閣小說
時間 2019年3月4日19 16 06 功能 爬取筆趣閣任何 from urllib import request from bs4 import beautifulsoup 此函式用來獲取每章對應的 並儲存 defsecondopenurl url,ch name 請求每章詳細內容 date r...
爬蟲大作業之爬取筆趣閣小說

初級爬蟲爬取筆趣閣小說

Python爬蟲 筆趣閣小說爬取

用爬蟲爬取筆趣閣小說

相關推薦

Python爬蟲筆趣閣小說爬取