Python網路爬蟲的流程與思路

靜態網頁的爬取過程一般是

傳送請求——獲得頁面——解析頁面——抽取並儲存內容

所以分別需要學習用到的

請求庫——解析庫——儲存庫

urllib、requests

我這裡詳細學習的是requests，在某些方面上，requests的確要比urllib更加簡單。

import requests

lxml+xpath、beautiful soup、pyquery

我這裡詳細學習的是beautiful soup,也簡單學習了lxml+xpath。

from bs4 import beautifulsoup

pymysql、 pymongo、 redis-py

我這裡詳細學習的是pymysql和redis-py的使用。

import pymysql
import redis

動態網頁的爬取過程一般有兩種辦法

ajax分析or模擬瀏覽器自動爬取

其中的，我認為模擬瀏覽器自動爬取更加便捷、高效。

一般會去使用selenium或者splash進行模擬

import selenium

目前強大有名的爬蟲框架——pyspider和scrapy

我打算學習的是scrapy

暫未學習

總結工程化思想，requests的使用反爬 1.robots告訴你哪些可以爬取 2.判斷header頭來限制爬蟲你自己改就完事了爬取網頁總結工程化，保證程式怎麼exe都不會erro import requests url try kv r requests.get url,headers...

python爬蟲流程主要分為三個部分 1 獲取網頁 2 解析網頁獲取資料儲存資料三個流程的技術實現 1.獲取網頁獲取網頁的技術基礎 urllib requests selenium 獲取網頁的高階技術多執行緒抓取登入抓取突破ip限制和伺服器抓取 2.解析網頁解析網頁的技術基礎 re...

對於爬蟲小白來說，很多人都感覺不知道怎麼開始學習。從網上查來查去，找到的多是部分的但很少有從整體上闡述爬蟲的流程的，因此導致了很多人對於爬蟲的難以理解和無從下手。接下來就介紹一下爬蟲的整體流程。爬蟲整體上可以分為三個步驟獲取網頁就是向乙個傳送request，然後返回網頁的資料。獲取網頁我們可...