python爬蟲獲取新浪新聞教學

2022-10-04 18:30:15 字數 849 閱讀 3273

一提到python,大家經常會提到爬蟲,爬蟲近來興起的原因我覺得主要還是因為大資料的原因,大資料導致了我們的資料不在只存在於自己的伺服器,而python語言的簡便也成了爬蟲工具的首要語言,我們這篇文章來講下爬蟲,爬取新浪新聞

1、大家知道,爬蟲實際上就是模擬程式設計客棧瀏覽器請求,然後把請求到的資料,經過我們的分析,提取出我們想要的內容,這也就是爬蟲的實現大家知道,爬蟲實際上就是模擬瀏覽器請求,然後把請求到的資料,經過我們的分析,提取出我們想要的內容,這也就是爬蟲的實現

2、首先,我們要寫爬蟲,可以借鑑一些工具,我們先從簡單的入門,首先說到請求,我們就會想到python中,非常好用的requests,然後說到分析解析就會用到bs4,然後我們可以直接用pip命令來實現安裝,假如安裝的是python3,也可以用pip3

3、安裝好這兩個類庫之後,然後我們就可以先請求資料,檢視下新聞的內容,這個時候我們有可能看到的www.cppcns.com是亂碼

4、怎麼處理亂碼呢?我們可以拿瀏覽器開啟網頁,右鍵檢視網頁源**,我們可以看到編碼格式為utf-8

5、然後我們在輸出的時候新增編碼格式,就可以檢視到正確編碼的資料了

6、拿到資料之後,我們需要先分析資料,看我們想要的資料在**,我們開啟瀏覽器,右鍵審查,然後按示例圖操作,就可以看到我們新聞所在的標籤,假如是windows系統,選擇開發中工具裡面一樣

7、我們知道屬於哪個標籤之後,就是用bs4來解析拿到我們想要的數scbrbwdr據了

8、我們想要拿到新聞的具體標題,時間,位址,就需要我們在對元素進行深入的解析,我們還是按之前的方法,找到標題所在的標籤

9、然後我們編寫標題時間位址的python程式,就可以爬取出對應的標題內容,時間和位址

10、簡單的python爬取新聞就講到這裡啦

python實現新浪新聞爬蟲

將爬取的新聞 儲存到資料夾e sinanews 中,成功後直接通過瀏覽器開啟。import urllib.request import re data urllib.request.urlopen read data2 data.decode utf 8 ignore 加第二個引數ignore pa...

爬蟲學習 爬蟲之新浪新聞

學習資料參考 python網路爬蟲實戰 源程式如下 import requests import json from bs4 import beautifulsoup import pandas results zturl res requests.get zturl jd json.loads r...

python抓取新浪新聞的分頁鏈結

第一步 先找到新聞資訊存在的那個非同步訪問的鏈結,該鏈結一般位在js那個分類下。然後把這個鏈結給requests 讓它訪問內部的資料。取到之後你會發現,這個內容前後兩邊有保護層,即乙個 和 這個時候可以用lstrip和rstrip去截掉這些多餘的字串。最後返回的就是乙個json資料,通過json.l...