python爬蟲(5)爬蟲高階知識 反爬

2021-10-01 15:33:28 字數 1015 閱讀 6999

1、path環境變數的作用:

為了讓cmd找到各種命令exe工具,配path就找exe所在目錄配置就可以了。

c:\anaconda3\scripts—找pip.exe

c:\anaconda3----python.exe

2.修改完path,要重啟cmd

pip install asyncio第五講:動態html

一、反爬策略:

1、請求頭:

—user-agent

—referer

—cookie

2、訪問頻率限制。

—**池

—再使用者訪問高峰期進行爬取,沖散日誌。12-13 7-10

—設定等待時長。time.sleep(3)

3、ajax非同步請求,用介面獲取資料。

4、能一次性獲取的資料,絕不傳送第二次請求(獲取資料的過程中儘量減少請求次數。)

5、頁面內容是js**。

selenium+phantomjs的組合進行頁面內容的獲取。

二、html頁面的技術

1、js:

頁面在請求html的過程中,伺服器返回html,同時還會請求js檔案。

2、jqery:js的庫,方便js開發。

3、ajax:web的非同步請求技術

同步請求,非同步請求。

三、selenium和phantomjs

1、什麼是selenium?

selenium乙個web自動化測試工具。【但是它本身是不帶瀏覽器】。這個工具其實就是作為一些外部工具驅動來使用的,可以控制一些外部應用來完成自動化測試。

2、phantomjs:他其實就是乙個內建無介面瀏覽器引擎。–無介面可以提高程式執行速度。

因為phantomjs是乙個瀏覽器引擎,所以他最大的功能就是執行頁面的js**。

python爬蟲基礎(3)爬蟲高階知識

cookie是指 為了鑑別使用者身份,進行繪畫跟蹤而儲存在客戶端本地的資料。本來的含義是指有始有終的一系列動作,而在web中,session物件用來在伺服器儲存特定使用者會話所需要的屬性及資訊。cookie和session他們不屬於http協議範圍,由於http協議無法保持狀態,但實際情況,我們有需...

python爬蟲高階 SVG對映反爬蟲

破解svg加密的字元,得到正確的字元 練習平台 一 svg的具體表現 二 css檔案 三 svg 四 舉例詳解 這裡選擇圖一為例 已知 類名 vhkjj4 座標 316px 141px 取正整數則為 316,141 可以自行選擇其他類名進行嘗試 usr bin env python coding u...

Python爬蟲(入門 高階)

講解方式 針對每乙個 或專題進行詳細深入的專項講解 課程亮點 具體的 資料抓取的案例和常見爬蟲問題的專項解答 課程內容 python爬蟲熱點專案,由多個 資料抓取的案例和常見問題專項解答組成 適用人群 1 希望未來從事爬蟲或反爬蟲方向工作的程式設計師。2 正在從事爬蟲工作,但對目前職業有進一步提公升...