小紅書主頁爬取小紅書資料爬取教程

該樓層疑似違規已被系統摺疊隱藏此樓檢視此樓

無意間瀏覽進了小紅書的乙個頁面，既然進來了那麼不好意思，必須得搞一下

首先這裡有個問題，本人對計算機視覺幾乎小白，所以面對滑塊驗證只能靠碰撞獲取cookie，後來發現沒什麼卵用，概率太低，而且這個頁面幾乎也不需要登入，如果遇到需要登入的情況，就手動進**滑一下把header裡的cookie複製出來即可(這種情況不一定會發生)

首先是小紅書列表位址

listurl = ''

flagimage = html.select('.change-pic') fla**ideo = html.select('.videoframe') if len(flagimage) > 0 : pass if len(fla**ideo ) > 0: pass

下面遇到的問題就是，如果是的話，會有乙個隱藏域的問題，無法獲取到隱藏域內部的結構，這裡還是靠selenium去操作js將隱藏域改為可見(這裡需要配置谷歌驅動，不知道可以看我上篇文章結尾：快速跳轉)

部分**：

js = "document.getelementsbyclassname('pages')[0].style.display='block'" driver.execute_script(js)

這些問題解決之後一路無阻了，位址都可以拿到了，只需要定義乙個類繼承threading.thread，然後就開啟記憶體飛起模式 (沒做執行緒數限制，因為到有的時候會開啟瀏覽器阻塞一次，這裡可以加個最大執行緒，超過了就阻塞一會，記得加鎖控制已使用執行緒數)

小紅書主頁爬取 小紅書資料爬取教程