爬取北大bbs論壇 鵲橋板塊列表(二)

2021-09-01 09:10:38 字數 1837 閱讀 6281

二、**實現

三、結果

鵲橋(piebridge)版旨在為北大在校學生、校友及親人朋友提供乙個包容、和諧、自由的尋找伴侶的平台。

板塊中發布了許多交友貼(列**式),那麼把這些列表資訊爬取下來,儲存在mongodb中。

檢視元素,找到列表的特徵,所有的帖子資訊顯示在class="list-item-topic list-item"

通過beautifulsoup的findall方法,找到所有的list

然後遍歷list,分析單個列表的內容,我們需要抓取url,id,title,author_name,publish_time,reply_num,last_reply_name,last_reply_time.

分析頁面跳轉欄頁面,所有頁面標籤顯示在class="paging-button n"

使用者登入已在上一章實現,本章實現爬取鵲橋板塊的列表資訊

url =

''base_url =

''defmain()

:global url

# 連線mongodb資料庫

db = connectdb(

)# 建立表

collection = db[

'piebridge'

]# 獲取 登入session

session = get_session(

)while

true

:# 獲取頁面

html = get_html(session, url)

print

('已爬取頁面:'

+ url)

url = parse_html(html, collection)

if url is

none

:break

if __name__ ==

'__main__'

: main(

)

程式爬取結果,一共251頁

通過mongodb工具,檢視庫中的詳細資料

資料庫詳細資訊,一共5002條資料

下一章,爬取單個帖子中的詳細內容

BBS論壇(二十)

from exts import dbfrom datetime import datetime class bannermodel db.model tablename banner id db.column db.integer,primary key true,autoincrement tr...

搭建bbs論壇

1.安裝軟體包 root svr7 yum y install mariadb server mariadb php php mysql2.配置mysql root svr7 systemctl restart mariadb root svr7 systemctl enable mariadb r...

例項二》爬取論壇標題

爬取論壇中的標題 這部分的重點 2 用到了正規表示式,正規表示式不準確也是輸出不了想要的結果,建議輸出r.text後在正規表示式的 上確認自己的表示式沒有問題,再進行使用。3 beautifulsoup知識點太多,單開文章彙總使用方法 使用正規表示式實現抓取網頁的標題 import requests...