爬蟲資料老不好,需要快取來斷點續爬實現

2021-08-18 03:36:47 字數 921 閱讀 4802

global localdata

global isfirst

global allsize

filename="backup.txt"

if localdata <= 0 and isfirst:

try:

count = -1

for count, line in enumerate(open(filename, 'ru',encoding='utf-8')):

pass

count += 1

localdata = int(linecache.getline(filename, count).split("----")[0])

isfirst = false

except:

localdata=0

if localdata>0:

# 資料已經抓過了

print("已經抓過的資料...%s"%(localdata))

localdata-=1

return ""

在**的開端加上這行控制 

每次抓好資料 儲存起來

with open("backup.txt", "a+", encoding="utf-8") as f:

f.write(str(allsize)+"----"+str(data)+"\n")

可能你看起來比較亂 

我闡述一下大概的思想把 

就是沒爬一條資料 給乙個索引並寫到本地

1----data 

2----data 

等下次再爬去的時候 讀取最後一行的index

而且只讀取一次 數量是幾 就跳出幾次迴圈 這樣省去了載入 爬蟲的速度會很快

因為鄙人現在還不能解決這個主機訪問超時這樣子的bug.....

git 技巧(老司機也需要)

git 看過3本書,感覺自己已經用的很溜了,但是發現有些特殊場景下的問題,可能當時自己看書沒有理解或者擼多了,導致還是有些問題困擾,此貼一直更新,記錄實際開發中遇到的問題。git gitignore 檔案不生效問題 git 修改已經提交的作者和郵箱 git 本地 commit 改為 未 commit...

gitbook安裝老不好,一定是教程沒找好!

找了n個gitbook教程,理論上應該很簡單,但是一直報各種問題,原因在於 很少人告訴你版本對應問題!這個跟你需要擰螺絲,別人跟你說,買個扳手就能搞定了!實話也是廢話!加入不說具體的型號,買回來也是廢物乙個。這也是我們很多人學習時,遇到的頭等問題。通常的gitbook安裝教程 1 安裝 nodejs...

WiFi訊號老不好,一口君給你支個招

經常有朋友說,家裡寬頻是100m 200m,為什麼我的wifi還這麼慢?換個千兆路由器速度還是上不來,總覺著是運營商偷了我流量。尤其是單身狗的你,正好遇到心儀妹子嫌棄wifi慢。此時此刻,此情此景,恰巧您看過我的文章,現在開始進入裝x正題 此時你可能有疑問,小山高不高,也不能解決wifi快慢的問題。...