Python網路爬蟲的流程與思路

2021-10-24 05:35:17 字數 872 閱讀 7597

靜態網頁的爬取過程一般是

傳送請求——獲得頁面——解析頁面——抽取並儲存內容

所以分別需要學習用到的

請求庫——解析庫——儲存庫

urllib、requests

我這裡詳細學習的是requests,在某些方面上,requests的確要比urllib更加簡單。

import requests
lxml+xpath、beautiful soup、pyquery

我這裡詳細學習的是beautiful soup,也簡單學習了lxml+xpath。

from bs4 import beautifulsoup
pymysql、 pymongo、 redis-py

我這裡詳細學習的是pymysql和redis-py的使用。

import pymysql

import redis

動態網頁的爬取過程一般有兩種辦法

ajax分析or模擬瀏覽器自動爬取

其中的,我認為模擬瀏覽器自動爬取更加便捷、高效。

一般會去使用selenium或者splash進行模擬

import selenium
目前強大有名的爬蟲框架——pyspider和scrapy

我打算學習的是scrapy

暫未學習

暫未學習

暫未學習

python 爬蟲奇思妙想

總結 工程化思想,requests的使用 反爬 1.robots告訴你哪些可以爬取 2.判斷header頭來限制爬蟲 你自己改就完事了 爬取網頁 總結 工程化,保證程式怎麼exe都不會erro import requests url try kv r requests.get url,headers...

python爬蟲基本流程 Python爬蟲流程

python爬蟲流程 主要分為三個部分 1 獲取網頁 2 解析網頁 獲取資料 儲存資料 三個流程的技術實現 1.獲取網頁 獲取網頁的技術基礎 urllib requests selenium 獲取網頁的高階技術 多執行緒抓取 登入抓取 突破ip限制和伺服器抓取 2.解析網頁 解析網頁的技術基礎 re...

Python爬蟲的整體流程

對於爬蟲小白來說,很多人都感覺不知道怎麼開始學習。從網上查來查去,找到的多是部分的 但很少有從整體上闡述爬蟲的流程的,因此導致了很多人對於爬蟲的難以理解和無從下手。接下來就介紹一下爬蟲的整體流程。爬蟲整體上可以分為三個步驟 獲取網頁就是向乙個 傳送request,然後 返回網頁的資料。獲取網頁我們可...