跟著老崔的錄影寫的爬蟲貓眼top100電影爬蟲

2021-10-03 10:10:02 字數 1539 閱讀 9230

現在貓眼加了反爬蟲了,所以加了headers。

試了一下只加user-agent會出現驗證碼的問題,都拷過來加上,沒事了。

試了一下注釋掉cookie,發現也是可以的。

初次學習爬蟲,太累了。

import json

import re

from multiprocessing import freeze_support

from multiprocessing.pool import pool

import requests

from requests.exceptions import requestexception

def get_one_page(url,headers):

try:

res=requests.get(url,headers=headers)

if res.status_code==200:

return res.text

return none

except requestexception:

return none

def parse_one_page(html):

# patten=re.compile(".*?")

results=re.findall(patten,html)

for result in results:

href,title,star,time=result

star=re.sub('\s',"",star)

print(href,title,star,time)

yield

def write_file(item):

with open('results.txt','a',encoding='utf-8') as f:

f.write(json.dumps(item,ensure_ascii=false)+"\n")

def main(offset):

url=""+str(offset)

headers=

headers=

html=get_one_page(url,headers)

# html=testre.html

# print(html)

for item in parse_one_page(html):

write_file(item,)

if __name__ == '__main__':

freeze_support() #加上還是缺少三行

pool=pool(3)

pool.map(main,[i*10 for i in range(10)]) #多程序缺少行,還有半行和亂碼

pool.close()

pool.join()

''' for i in range(0,100,10): #單程序執行100行,結果正確

main(i)

'''

***下面是爬出的結果:***斜體樣式

", 「time」: 「2013-09-04(英國)」}

《爬蟲》崔慶才的爬蟲課

官方安裝python pycharm python非常好用的ide linux 安裝對應的依賴庫和python ac os mongodb環境安裝 連線客戶端 mongo 配置成服務 增加日誌檔案 linux ac os redis環境安裝 linux 進行遠端鏈結和訪問許可權密碼的設定 mac o...

模擬cas,跟著老師的Demo寫的,簡單了解了,

public class casdemo class cas public void setvalue int value public synchronized int compareandswap int exceptvalue,int upsetvalue return value publi...

python寫爬蟲的彎路

from bs4 import beautifulsoup import requests import re reponse requests.get url reponse.encoding gbk html reponse.text 這是網頁的部分 第一章 你心裡沒點數嗎 第二章 原來是一場精...