python 3 爬起點中文網,簡單分析

2021-08-15 13:20:31 字數 2216 閱讀 5261

python 3之後,爬蟲相對來說簡單一些。主要會用到requests和beautifulsoup庫,reuqests代替瀏覽器傳送http請求並返回內容,返回的內容之前都是用正規表示式處理,當然現在也可以,不過現在beautifulsoup庫用得比較多。beautifulsoup處理html標籤,用得最多的是find、find_all、select函式。

一、研究網頁結構

**:我用的是chrome瀏覽器,開啟**,滑鼠右鍵選擇「檢查」,然後重新整理。headers主要是頭部資訊,preview是頁面的結構,主要是根據headers來寫requests,分析preview找到自己要爬取的資訊然後來寫beautifulsoup。

二、爬取第一頁內容

在preview裡面,我找到了要爬取的資訊都在rank-view-list這個標籤,所以剩下就很簡單了,定位到相應的標籤即可。

三、迴圈爬取25頁的內容

因為url的前面都沒有變化,只需要更改page後面的引數就好,所以加乙個迴圈,完整**如下:

importrequests

frombs4importbeautifulsoup

newsary=

foriinrange(25):

res=requests.get(''+str(i+1))

soup=beautifulsoup(res.text,'html.parser')

fornewsinsoup.select('.rank-view-list li'):

:news.select('a')[1].text,'name':news.select('a')[2].text,'style':news.select('a')[3].text,'describe':news.select('p')[1].text,'lastest':news.select('p')[2].text,'url':news.select('a')[0]['href'],'votes':news.select('p')[3].text})

#將爬取的資訊儲存到本地的excel檔案中

importpandas

importopenpyxl

newsdf=pandas.dataframe(newsary)

newsdf.to_excel('/users/songrenqing/downloads/qidian_rank1.xlsx')

爬好後,在excel中大概是這種形式,我做了一些簡單的處理

四、簡單的分析

選取了得票最高的十位作者

都市和玄幻類題材最受作者歡迎,這兩個題材的寫作者佔了一半左右。

Python之起點中文網爬蟲

注 請勿用於其他用途,僅供學習使用 import requests import re import os from lxml import etree head defget page book id 獲取章節字段 所有章節介面https b url 獲取文章內容 b p url 名 id j t...

python3中文長度 python3獲得漢字長度

import string def str count str 找出字串中的中英文 空格 數字 標點符號個數 count en count dg count sp count zh count pu 0 for s in str 英文 if s in string.ascii letters cou...

Python3中檔案處理

1 txt,xls,doc等檔案的使用 f open filename w 開啟乙個用於寫入的檔案,要寫入內容時使用f.write 內容 f open filename r 開啟乙個用於讀的檔案,讀時使用f.read 返回讀取的到的字串 f open filename a 開啟的檔案既可用於讀,也可...