Python網路爬蟲入門介紹

2021-10-02 11:15:09 字數 676 閱讀 3428

我們最常見的就是post和get請求,學習完這兩個模組就可以爬去大部分網頁了。我們所有的高階爬蟲都是基於基本的請求傳送的,因此理解和熟練掌握這些基本的技能是尤為重要的。

下面列舉常見的傳送請求的方式

利用requests和urllib傳送get請求

利用requests和urllib傳送post請求

使用賬號密碼模擬登陸

使用cookie進行模擬登陸

利用cookiejar或者session儲存cookie登陸

從伺服器拿的資訊大部分都是html因此學會解析html是非常重要的,常用的有以下三種解析方法:

1.正規表示式

2.beautifulsoup

3.xpath方法

從伺服器拿的資料還可能是json資料,因此學習下面兩個庫十分重要

1.json

2.jsonpath

另外還需要學習xpath和jsonpath的語法規則

此外從伺服器拿回的資料還可能是二進位制檔案,因此學會儲存二進位制檔案也是非常重要的。

除了基本的爬蟲發起和解析之外我們該有其他的需要,比如說爬蟲的速度,這裡就需要使用到多執行緒和多程序爬蟲,再到scrapy框架,在比如需要學會資料的儲存,就需要學習資料庫如mysql,mongodb,redis等等,最後如果需要還可以學習分布式爬蟲。

Python 網路爬蟲介紹

在隨著大資料時代的到來,網路爬蟲在網際網路中的地位也越來越重要。而網際網路中的資料是海量存在的,那麼我們如何自動高效地獲取網際網路中我們感興趣的資訊並為我們所用就成了乙個重要的問題,而爬蟲技術就是為了解決這些問題而產生的。網路爬蟲 網路爬蟲是一種按照一定規則,自動抓取全球資訊網資訊的程式或指令碼。簡...

python網路爬蟲入門

from urllib import request fp request.urlopen content fp.read fp.close 這裡需要使用可以從html或者xml檔案中提取資料的python庫,beautiful soup 安裝該庫 pip3 install beautifulsou...

Python網路爬蟲入門(四)

beautifulsoup庫 from bs4 import beautifulsoup html soup beautifulsoup html,lxml 列印所有的tr標籤 trs soup.find all tr for tr in trs print tr 獲取第二個tr標籤 tr soup...