記一次爬蟲專案 杭州19樓

2021-09-12 15:36:00 字數 2229 閱讀 8841

這個專案我爬的是19樓中我要爆料模組,具體**如下:

lou_spider()在爬的過程中我遇到了以下幾個問題,第乙個,我剛開始的時候requests請求後內容頁面的資料拿不到,所以我就轉為用selenium,問題是解決了,但是這個專案要部署到centos7.5的伺服器上,伺服器上需要安裝selenium+chrome driver環境,我是整整安裝了兩天,各種採坑,最後還是沒有安好,所以我就不用selenium,還是用requests,加上了請求頭就好了(我之前也加了請求頭,沒有結果,可能是當時加的時候出錯了)。第二個就是ip被封的問題,因為怕的太快ip被封,我在這設定了sleep,好像還是會被封,我還在實驗中,如果不行就加上**,我還用了多程序,可以提高爬取速度。

記第一次爬蟲

出不來結果的時候,真是著急,期間犯了很多錯誤,這個過程痛苦並快樂著 哈哈哈哈哈,哈哈哈哈哈 import urllib.request import re import os url page urllib.request.urlopen url read page page.decode gbk ...

記第一次爬蟲

在學習爬蟲的過程中,我首先進行的是對豆瓣top250的爬取,步驟可分為如下幾步 第一步 抓包 url 第二步 請求url 第三步 解析,提取出我需要的資訊 第四步 存入檔案 首先我對豆瓣的網頁進行了分析,開啟要抓取的網頁,f12 f5,這樣你就可以看到網頁原始碼了,進入到network,找到要抓取的...

記一次拉鉤網爬蟲

coding utf 8 import requests import csv import time 爬取鏈結 url 頭部資訊 headers 頁碼 form data 建立會話獲取cookie 並且cookie要用在該會話中 s requests.session url list s.get ...