獲取全部校園新聞

1.取出乙個新聞列表頁的全部新聞包裝成函式。

2.獲取總的新聞篇數，算出新聞總頁數。

3.獲取全部新聞列表頁的全部新聞詳情。

4.找乙個自己感興趣的主題，進行資料爬取，並進行分詞分析。不能與其它同學雷同。

#
-*- coding: utf-8 -*-
import
requests
from bs4 import
beautifulsoup
from datetime import
datetime
importre#
獲取點選次數
defgetclickcount(newsurl):
newsid = re.findall('
\_(.*).html
', newsurl)[0].split('
/')[1]
clickurl = '
'.format(newsid)
clickstr =requests.get(clickurl).text
count = re.search("
hits'\).html\('(.*)'\);
",clickstr).group(1)
return
count
#獲取新聞詳情
defgetnewdetail(url):
resd =requests.get(url)
resd.encoding = '
utf-8
'soupd = beautifulsoup(resd.text, '
html.parser')
title = soupd.select('
.show-title
')[0].text
info = soupd.select('
.show-info
')[0].text
time = info.lstrip('
')[0:19]
dt = datetime.strptime(time, '
%y-%m-%d %h:%m:%s')
if info.find('
') >0:
source = info[info.find('
'):].split()[0].lstrip('')
else
: source = '
none
'if info.find('
') >0:
author = info[info.find('
'):].split()[0].lstrip('')
else
: author = '
none
'print('
'+url)
print('
' +title)
print('
'.format(dt))
print('
' +source)
print('
' +author)
print('
***********')
defgetlistpage(listpageurl):
res =requests.get(listpageurl)
res.encoding = '
utf-8
'soup = beautifulsoup(res.text, '
html.parser')
for news in soup.select('li'
): 
if len(news.select('
.news-list-title
')) >0:
#獲取新聞模組鏈結
a = news.a.attrs['
href']
#呼叫函式獲取新聞正文
getnewdetail(a)
#首頁列表新聞
#getlistpage('')
#計算總頁數
resn = requests.get('
')resn.encoding = '
utf-8
'soupn = beautifulsoup(resn.text,'
html.parser')
n = int(soupn.select('
.a1')[0].text.rstrip('
條'))//10+1
for i in range(n,n+1):
pageurl = '
{}.html
'.format(i)
getlistpage(pageurl)

執行結果截圖：

字數 '

)article = list(jieba.lcut(soup.select('p'

)[0].text))

print('

'+title)

print('

'.format(dt))

print('

字數'+words)

print('

分詞後的正文：')

print(article)

獲取全部校園新聞

1.取出乙個新聞列表頁的全部新聞包裝成函式。2.獲取總的新聞篇數，算出新聞總頁數。3.獲取全部新聞列表頁的全部新聞詳情。4.找乙個自己感興趣的主題，進行資料爬取，並進行分詞分析。不能與其它同學雷同。import requests from bs4 import beautifulsoup from...

獲取全部校園新聞

1.取出乙個新聞列表頁的全部新聞包裝成函式。2.獲取總的新聞篇數，算出新聞總頁數。3.獲取全部新聞列表頁的全部新聞詳情。import requests from bs4 import beautifulsoup from datetime import datetime importre 獲得新聞...

獲取全部校園新聞

1.取出乙個新聞列表頁的全部新聞包裝成函式。2.獲取總的新聞篇數，算出新聞總頁數。3.獲取全部新聞列表頁的全部新聞詳情。import requests from bs4 import beautifulsoup from datetime import datetime importre 獲取新聞...

獲取全部校園新聞

獲取全部校園新聞

獲取全部校園新聞

獲取全部校園新聞

相關推薦