python爬蟲 爬取抽屜新熱榜

2021-08-23 14:33:18 字數 1321 閱讀 7554

爬取段子

抽屜**

爬蟲的常規操作,根據需求進行分析。我們要爬取段子,也就是每條段子資訊。先按f12檢視一下網頁,審查元素。

我們剛好找到段子資訊,看看其他段子是不是也在這個位置。我們發現了25條一樣的

提取這些資訊,我們同樣使用beautifulsoup。beautifulsoup的用法我在另一篇文章中有所介紹beautifulsoup用法

這是一頁的資訊,如何獲取多頁呢,看看第二頁的**。

再看看第三頁的**。

我們發現了規律,用表示式寫出來

url = ''+str(i)

這樣就可以獲取多頁的段子資訊了。

直接上**

import requests

from bs4 import beautifulsoup

headers=

for i in range(10):

url = ''+str(i)

html=requests.get(url,headers=headers)

soup=beautifulsoup(html.text,'html.parser')

div=soup.find(id='content-list')

div2=div.find_all('div',class_="item")

for i in div2:

a=i.find('div',class_="part2")

b = a.get('share-title')

print(b)

with

open('duanzi.txt','a',encoding='utf-8')as f:

f.write(b)

python爬蟲實戰(2) 爬取知乎熱榜內容

二 python 實現 三 最終結果 response requests.get url,headers headers text response.text html etree.html text 構造乙個xpath解析物件並對html文字進行自動修正。number question.xpath...

XPath 爬蟲學習記錄。爬取知名平台熱榜

為了滿足自己看一些時下熱門的新聞的需求,但又覺得開啟每個平台再去翻找有點麻煩。正好順便學了一下爬蟲。說明 python語言,xpath方法,windows平台 先宣告一下自己匯入的庫 我爬取的是知乎 微博 貼吧的熱門 知乎熱榜 url zhihu 微博熱搜 url weibo 貼吧熱議 url ti...

爬取新浪微博熱搜榜

一 主題式網路爬蟲設計方案 15分 3.主題式網路爬蟲設計方案概述 包括實現思路與技術難點 本案例使用requests庫獲取網頁資料,使用beautifulsoup庫解析頁面內容,再使用pandas庫把爬取的資料輸出,並對資料視覺化,最後進行小結 技術難點 爬取有用的資料,將有礙分析的資料剔除,回歸...