簡書非官方大資料新思路

2021-09-11 16:44:08 字數 559 閱讀 9148

這部分就是新的思路,之前是爬取專題文章的作者,然後爬取作者的粉絲,這部分做完爬取物件。這次是先爬取專題管理員url作為第一層使用者,這部分是非同步載入的,還有就是首頁的和其他的專題在非同步載入的url有所不同(這個大家找包的時候就知道了)。

我們可以這樣想,基本上管理員的粉絲都會很多,這部分大多像我們一樣,吃瓜群眾;還有同行間的話,就是關注使用者,這樣雙向傳遞,可以爬取大部分使用者(還是有一些使用者爬不到)。

這種方法比爬取文章會快很多,重複的資料也會少很多(因為使用者會投多篇文章)。缺點就是可能資料會不全。

簡書非官方大資料(二)

ps 這條很重要,我的文章中所說的大資料並不是現在很火的大資料話題,前幾天看過一篇大資料的文章,簡單來說 當一台電腦沒法處理或你現在的條件沒法處理的資料就可以談的上大資料了,這個沒有指定的資料量。爬蟲爬了一晚上,到目前為止已爬取170w 大早上想了一下,效率不夠,我又不會分布式爬蟲,也只好停下來改 ...

簡書推薦作者風雲榜(爬取簡書app資料)

自 作 爬取張佳瑋138w 知乎關注者 資料視覺化 把json資料複製到chrome瀏覽器的json handle外掛程式裡,方便檢視格式和後續爬蟲裡寫提取資訊 很少看到有人提到這個外掛程式,也是蠻奇怪的 寫好爬蟲 爬取資料並存入csv檔案裡,發現一共230名推薦作者。但由於部分資料亂碼,也是很奇怪...

大資料專業考研書 大資料考研

大資料,考研可以選擇哪些專業 大資料 big data 指一般的軟體工具難以捕捉 管理和分析的大容量資料。大資料 之 大 並不僅僅在於 容量之大 更大的意義在於 通過對海量資料的交換 整合和分析,發現新的知識,創造新的價值,帶來 大知識 大科技 大利潤 和 大發展 大資料 能幫助企業找到乙個個難題的...