如何抓取新浪新聞資訊

2021-08-14 18:08:12 字數 790 閱讀 9094

如何將特殊標籤或節點的資料取出來。

可以通過beautifulsoup中的select方法。

例子

frombs4importbeautifulsoup

html_sample = '\\

\\this is link1

\this is link2\\

'soup = beautifulsoup(html_sample,

'html.parser')

alink = soup.select('h1') #通過上面獲取頁面資料,取得所有h1標籤的資料儲存到列表中

print(alink)

print(alink[0].text) #每個h1標籤就是列表中的乙個值,可以通過alink[0

]獲取第乙個h1的全部資料,通過alink[0

].text將h1標籤中的內容取出來

alink1 = soup.select('a') #通過beautifulsoup中的select方法獲取頁面資料中標籤的內容

forlinkinalink1: #通過for迴圈將列表中的資料都輸出出來

print(link)

print(link.text)

執行結果

hello world

this is link1

this is link1

this is link2

this is link2

新浪新聞按keyword抓取例項

import urllib2 import requests import mysqldb import webbrowser import string import re from beautifulsoup import beautifulsoup def gethtml page 獲取 內容...

python抓取新浪新聞的分頁鏈結

第一步 先找到新聞資訊存在的那個非同步訪問的鏈結,該鏈結一般位在js那個分類下。然後把這個鏈結給requests 讓它訪問內部的資料。取到之後你會發現,這個內容前後兩邊有保護層,即乙個 和 這個時候可以用lstrip和rstrip去截掉這些多餘的字串。最後返回的就是乙個json資料,通過json.l...

新浪新聞按關鍵字抓取例項

import urllib2 import requests import mysqldb import webbrowser import string import re from beautifulsoup import beautifulsoup def gethtml page 獲取 內容...