用 Python 寫爬蟲時應該注意哪些坑

2021-08-14 12:34:07 字數 379 閱讀 2114

1. 新增user-agent,header。避免一開始就被遮蔽掉。推薦用urllib2,requests(最近才用這個,發現很好用)

2. 編碼用utf-8,本地儲存的時候用codes.open 來儲存中文字元

3. lxml解析的速度要比beautifulsoup快的多

4. 如果beautiful和lxml都不能抓到你想要的網頁內容,就的用最原始的方法---正規表示式,所以玩爬蟲,正規表示式基礎要好。

5.抓到返回內容如果和正常頁面不符,看看是不是跳轉了

6. 爬js 動態頁面 用 抓包獲取 提交的資料,然後post返回json格式,最好不用seliumn,卡卡卡呀

到最終,熟練了,就是 抓包,分析內容,提取內容,所以高階後可以直接用scrapy

用python寫爬蟲(一)初識爬蟲

爬蟲又被稱之為網路蜘蛛 網路機械人等,簡單來說就是模擬客戶端傳送網路請求,接收請求響應,按照一定的規則自動的抓取網際網路資訊的程式。1.從個人角度來說,爬蟲可以做我們的生活助手。2.從商業角度來說,爬蟲能實現巨大的商業價值。網路爬蟲根據系統結構和開發技術大致可以分為四種型別 通用網路爬蟲 聚焦網路爬...

用python寫爬蟲簡單嗎

所謂網路爬蟲,通俗的講,就是通過向我們需要的url發出http請求,獲取該url對應的http報文主體內容,之後提取該報文主體中我們所需要的資訊。下面是乙個簡單的爬蟲程式 http基本知識 當我們通過瀏覽器訪問指定的url時,需要遵守http協議。本節將介紹一些關於http的基礎知識。http基本流...

用 static 修飾變數時應該注意的問題

1.使用static修飾的變數由該類的全體物件共享 1 public class teststatic 78 public void printa 1112 public static void main string args 20 輸出結果 10 10t1中我們把靜態變數a的值設為了10,在t2...