簡單的爬蟲每日筆記

2021-08-16 00:19:15 字數 696 閱讀 8221

2018.3.2

1)換個效能更好的電腦

2)網路使用光纖

3)使用多執行緒爬蟲

4)使用多程序爬蟲

5)分布式爬蟲

6)提公升資料的寫入速度

1)隨機修改user-agent

2)禁用cookie追蹤

3)放慢爬蟲速度

4)使用**動態更換ip(本機電腦的ip位址不變,動態ip是**ip)

5)分布式(一般用不同區域的電腦,不適用乙個區域網下,應為ip位址相同)

1)scrapy支援本地生成5種格式的文件,第一種方法是用命令列來執行。

乙個爬蟲專案中可以寫入多個爬蟲檔案,一般他們擁有相同的資料格式,應為他們要公用同樣的配置檔案settings

,items,pipielines,middlewares

python 爬蟲筆記 簡單靜態

不太懂網頁上的專業術語。1.首先檢視頁面源 檢視要爬取的資料是什麼樣的,在哪個標籤下,能不能用xpath或者bs4取出來。2.f12此頁面,重新整理檢視頁面響應時,能看到的資訊。主要是訊息頭里的請求 請求方法,host,user agent,cookie以及引數裡的資料。及時檢視響應,看出現的頁面是...

簡單的爬蟲

參考xlzd的知乎專欄 encoding utf 8 from bs4 import beautifulsoup import requests import codecs download url requests模擬http協議中的get請求,用於獲取目標 的原始碼 def download p...

簡單的爬蟲

這幾天來一直在做爬蟲的工作,除了因為開始因為不熟悉爬蟲所以學的時候比較花時間之外,其他大多數時候都還是比較順利,中間除了遇到xpath的問題,其他就還好。就我目前的理解而言爬蟲總共是分為三個步驟。1.通過url獲取網頁 2.獲取網頁之後對網頁進行解析 3.將解析之後需要的內容存貯起來 獲取網頁 這一...