python抓取新浪新聞的分頁鏈結

2021-08-20 16:18:40 字數 506 閱讀 3096

第一步:

先找到新聞資訊存在的那個非同步訪問的鏈結,該鏈結一般位在js那個分類下。

然後把這個鏈結給requests 讓它訪問內部的資料。

取到之後你會發現,這個內容前後兩邊有保護層,即乙個「(」和 「);」,這個時候可以用lstrip和rstrip去截掉這些多餘的字串。

最後返回的就是乙個json資料,通過json.loads將它賦給乙個字典。

早在之前就已經發現,這個字典是分層次的,首先是['result'],然後才是['data'],而我們需要的鏈結就在data下的['url']裡面

如何抓取新浪新聞資訊

如何將特殊標籤或節點的資料取出來。可以通過beautifulsoup中的select方法。例子frombs4importbeautifulsoup html sample this is link1 this is link2 soup beautifulsoup html sample,html....

新浪新聞按keyword抓取例項

import urllib2 import requests import mysqldb import webbrowser import string import re from beautifulsoup import beautifulsoup def gethtml page 獲取 內容...

新浪新聞按關鍵字抓取例項

import urllib2 import requests import mysqldb import webbrowser import string import re from beautifulsoup import beautifulsoup def gethtml page 獲取 內容...