twitter推特全量使用者收集與發文採集

2021-10-13 12:31:51 字數 423 閱讀 2966

twitter推特全量使用者收集與發文採集

為了研究各國的**選舉期間的民調,x專案需要m國全量推特使用者的發文資料,以此為背景,需要將推特大部分使用者(70%)的推特uid,screen_name,name,local等資訊收集起來

2023年推特日活使用者1.7億,月活使用者3.9億,註冊使用者預計28億,要是將這些使用者資料簡單的uid-screen_name-name-local的方式存txt,預計檔案大小達494g,壓縮後檔案也有80g左右,因此,靠普通的爬蟲方式進行爬取,我想很難收集這麼多的使用者資料

因此,想要獲得完整的推特使用者資料做社科研究,要麼直接找官方合作,要麼找乙個專業的推特爬蟲做資料支援。

現實問題是,社交巨頭的使用者資訊,與現實生活中工業系統的石油一樣,中國公司像問美國公司要巨量的社交使用者資料做社科研究是不現實的,我坦白,我從寬,我研究twitter採集多年

355 設計推特

設計乙個簡化版的推特 twitter 可以讓使用者實現傳送推文,關注 取消關注其他使用者,能夠看見關注人 包括自己 的最近十條推文。你的設計需要支援以下的幾個功能 posttweet userid,tweetid 建立一條新的推文 getnewsfeed userid 檢索最近的十條推文。每個推文都...

355 設計推特

思路見 注釋很詳細 from typing import list import heapq 使用堆來篩選最近發表的保溫 class tweet 推文類 def init self,tweet id,cur time self.next none 連線下一條推特 self.id tweet id s...

oracle全量增量 oracle全量 增量備份

採用0221222增量備份策略,7天乙個輪迴 也就是週日0級備份,周1 2 4 5 6 採用2級增量備份,周3採用1級增量備份 開啟控制檔案自動備份 configure controlfile autobackup on 配置控制檔案備份路徑 configure controlfile autoba...