python爬蟲獲取新浪新聞教學

一提到python，大家經常會提到爬蟲，爬蟲近來興起的原因我覺得主要還是因為大資料的原因，大資料導致了我們的資料不在只存在於自己的伺服器，而python語言的簡便也成了爬蟲工具的首要語言，我們這篇文章來講下爬蟲，爬取新浪新聞

1、大家知道，爬蟲實際上就是模擬程式設計客棧瀏覽器請求，然後把請求到的資料，經過我們的分析，提取出我們想要的內容，這也就是爬蟲的實現大家知道，爬蟲實際上就是模擬瀏覽器請求，然後把請求到的資料，經過我們的分析，提取出我們想要的內容，這也就是爬蟲的實現

2、首先，我們要寫爬蟲，可以借鑑一些工具，我們先從簡單的入門，首先說到請求，我們就會想到python中，非常好用的requests，然後說到分析解析就會用到bs4，然後我們可以直接用pip命令來實現安裝，假如安裝的是python3，也可以用pip3

3、安裝好這兩個類庫之後，然後我們就可以先請求資料，檢視下新聞的內容，這個時候我們有可能看到的www.cppcns.com是亂碼

4、怎麼處理亂碼呢？我們可以拿瀏覽器開啟網頁，右鍵檢視網頁源**，我們可以看到編碼格式為utf-8

5、然後我們在輸出的時候新增編碼格式，就可以檢視到正確編碼的資料了

6、拿到資料之後，我們需要先分析資料，看我們想要的資料在**，我們開啟瀏覽器，右鍵審查，然後按示例圖操作，就可以看到我們新聞所在的標籤，假如是windows系統，選擇開發中工具裡面一樣

7、我們知道屬於哪個標籤之後，就是用bs4來解析拿到我們想要的數scbrbwdr據了

8、我們想要拿到新聞的具體標題，時間，位址，就需要我們在對元素進行深入的解析，我們還是按之前的方法，找到標題所在的標籤

9、然後我們編寫標題時間位址的python程式，就可以爬取出對應的標題內容,時間和位址

10、簡單的python爬取新聞就講到這裡啦