爬取校園新聞首頁的新聞

2022-06-04 23:45:14 字數 2665 閱讀 1340

1. 用requests庫和beautifulsoup庫,爬取校園新聞首頁新聞的標題、鏈結、正文。

2. 分析字串,獲取每篇新聞的發布時間,作者,**,攝影等資訊。

import requests

from

bs4 import beautifulsoup

from

datetime import datetime

url = '

'res = requests.get

(url)

res.encoding = '

utf-8

'soup = beautifulsoup(res.text,'

html.parser')

for news in soup.select('li'

):

if len(news.select('

.news-list-title

'))>0

: t = news.select('

.news-list-title

')[0

].text

dt = news.select('

.news-list-info

')[0].contents[0

].text

a = news.select('

a')[0].attrs['

href']

print(dt,t,a)#爬取校園新聞首頁新聞的標題、鏈結

res2 = requests.get

(a) res2.encoding = '

utf-8

'soup2 = beautifulsoup(res2.text, '

html.parser')

te = soup2.select('

#content

')[0

].text

print(te)#爬取校園新聞首頁新聞的正文

ifd = soup2.select('

.show-info

')[0

].text

dt2 = ifd.lstrip('

')[:19

] print(dt2)#獲取每篇新聞的發布時間

i = ifd.find('')

if i>0

: s = ifd[ifd.find('

'):].split()[0].lstrip('')

print(s)#獲取每篇新聞的作者。

q = ifd.find('')

if q > 0

: b = ifd[ifd.find('

'):].split()[0].lstrip('')

print(b)#獲取每篇新聞的**。

c = ifd.find('

攝影:'

)

if c > 0

: n = ifd[ifd.find('

攝影:'):].split()[0].lstrip('

攝影:'

) print(n)#獲取每篇新聞的攝影。

dtn = datetime.strptime(dt2,'

%y-%m-%d %h:%m:%s

')#將其中的發布時間由str轉換成datetime型別。

print(dtn)

break

3. 將其中的發布時間由str轉換成datetime型別。

import requests

from

bs4 import beautifulsoup

from

datetime import datetime

gzccurl = '

'res = requests.get

(gzccurl)

res.encoding='

utf-8

'soup = beautifulsoup(res.text,'

html.parser')

for news in soup.select('li'

):

if len(news.select('

.news-list-title

'))>0

: title = news.select('

.news-list-title

')[0

].text#標題

url = news.select('

a')[0]['

href

']#鏈結

time = news.select('

.news-list-info

')[0].contents[0

].text

dt = datetime.strptime(time,'

%y-%m-%d')

source = news.select('

.news-list-info

')[0].contents[1

].text#**

print(dt,'\n

',title,'

\n',url,'

\n',source,'\n'

)

爬取校園新聞首頁的新聞

1.用requests庫和beautifulsoup庫,爬取校園新聞首頁新聞的標題 鏈結 正文 show info。2.分析info字串,獲取每篇新聞的發布時間,作者,攝影等資訊。import requests newsurl res requests.get newsurl 返回response物...

爬取校園新聞首頁的新聞

1.用requests庫和beautifulsoup庫,爬取校園新聞首頁新聞的標題 鏈結 正文 show info。import requests from bs4 import beautifulsoup newsurl res requests.get newsurl res.encoding ...

爬取校園新聞首頁的新聞

1.用requests庫和beautifulsoup庫,爬取校園新聞首頁新聞的標題 鏈結 正文 show info。2.分析info字串,獲取每篇新聞的發布時間,作者,攝影等資訊。import requests from bs4 import beautifulsoup from datetime ...