小紅書主頁爬取 小紅書資料爬取教程

2021-10-13 14:17:07 字數 744 閱讀 5331

該樓層疑似違規已被系統摺疊 隱藏此樓檢視此樓

無意間瀏覽進了小紅書的乙個頁面,既然進來了那麼不好意思,必須得搞一下

首先這裡有個問題,本人對計算機視覺幾乎小白,所以面對滑塊驗證只能靠碰撞獲取cookie,後來發現沒什麼卵用,概率太低,而且這個頁面幾乎也不需要登入,如果遇到需要登入的情況,就手動進**滑一下把header裡的cookie複製出來即可(這種情況不一定會發生)

首先是小紅書列表位址

listurl = ''

flagimage = html.select('.change-pic') fla**ideo = html.select('.videoframe') if len(flagimage) > 0 : pass if len(fla**ideo ) > 0: pass

下面遇到的問題就是,如果是的話,會有乙個隱藏域的問題,無法獲取到隱藏域內部的結構,這裡還是靠selenium去操作js將隱藏域改為可見(這裡需要配置谷歌驅動,不知道可以看我上篇文章結尾: 快速跳轉)

部分**:

js = "document.getelementsbyclassname('pages')[0].style.display='block'" driver.execute_script(js)

這些問題解決之後一路無阻了,位址都可以拿到了,只需要定義乙個類繼承threading.thread,然後就開啟記憶體飛起模式 (沒做執行緒數限制,因為到有的時候會開啟瀏覽器阻塞一次,這裡可以加個最大執行緒,超過了就阻塞一會,記得加鎖控制已使用執行緒數)

使用Python爬蟲爬取小紅書完完整整的全過程

以下文章 於python進擊者 作者kuls python爬蟲 資料分析 開發等案例教程 免費 首先,我們開啟之前大家配置好的charles 我們來簡單抓包一下小紅書小程式 注意這裡是小程式,不是app 不選擇app的原因是,小紅書的app有點難度,參照網上的一些思路,還是選擇了小程式 1 通過ch...

小紅書KOL品牌排行榜!小紅書直播資料

千瓜資料為大家整理了小紅書mcn機構榜 商業收入榜 品牌商業投放 互動量榜 創作者 商業筆記互動量排行榜 直播帶貨榜 購買意向榜 熱門話題排行榜 增量榜,為大家提供客觀的資料參考。mcn機構榜 商業收入榜中 摘星閣 排名第一,商業收入9131046 侵塵文化 排名第二,商業收入8460788 仙梓文...

利用Ajax實現資料爬取 爬取微博主頁

有時候我們在利用requests抓取網頁時,得到的結果可能與在瀏覽器中看到的結果不一樣 在瀏覽器中能看到的東西,但是在爬取下來的網頁源 中看不到。這是因為requests獲取的都是最原始的html文件,而瀏覽器中的頁面則是經過js處理資料得到的結果,這些資料的 有很多種,第一種方式是 通過ajax,...