Python爬蟲之爬蟲概述

2021-10-24 08:47:02 字數 902 閱讀 8828

知識點:

模擬瀏覽器,傳送請求,獲取響應

網路爬蟲(又被稱為網頁蜘蛛,網路機械人)就是模擬客戶端(主要指瀏覽器)傳送網路請求,接收請求響應,一種按照一定的規則,自動地抓取網際網路資訊的程式。

知識點:了解 爬蟲的概念

爬蟲在網際網路世界中有很多的作用,比如:

資料採集

抓取招聘**的招聘資訊(資料分析、挖掘)

軟體測試

爬蟲之自動化測試

蟲師12306搶票

**上的投票

投票網網路安全

簡訊轟炸

註冊頁面1

註冊頁面2

註冊頁面3

web漏洞掃瞄

知識點:了解 爬蟲的作用

3.2 根據是否以獲取資料為目的,可以分為:

知識點:了解 爬蟲的分類

爬蟲的基本流程如圖所示

獲取乙個url

向url傳送請求,並獲取響應(需要http協議)

如果從響應中提取url,則繼續傳送請求獲取響應

如果從響應中提取資料,則將資料進行儲存

知識點:掌握 爬蟲的流程

向url傳送請求,並獲取響應(需要http協議)

3. 如果從響應中提取url,則繼續傳送請求獲取響應

4. 如果從響應中提取資料,則將資料進行儲存

知識點:掌握 爬蟲的流程

爬蟲之爬蟲概述

anaconda 是乙個整合環境 資料分析 機器學習 提供了乙個叫做jupyter的視覺化工具 基於瀏覽器 啟動 cmd jupyter notebook jupyter的基本使用 cell分為兩種模式 什麼是爬蟲 爬蟲的分類 聚焦爬蟲 聚焦爬蟲是根據指定的需求抓取網路上指定的資料。例如 獲取豆瓣上...

python之爬蟲概述

網路爬蟲 又被稱為網頁蜘蛛,網路機械人,在foaf社群中間,更經常的稱為網頁追逐者 是一種按照一定的規則,自動地抓取全球資訊網資訊的程式或者指令碼。另外一些不常使用的名字還有螞蟻 自動索引 模擬程式或者蠕蟲。其實通俗的講就是通過程式去獲取web頁面上自己想要的資料,也就是自動抓取資料。模擬瀏覽器開啟...

Python爬蟲高階一之爬蟲框架概述

爬蟲入門之後,我們有兩條路可以走。乙個是繼續深入學習,以及關於設計模式的一些知識,強化python相關知識,自己動手造輪子,繼續為自己的爬蟲增加分布式,多執行緒等功能擴充套件。另一條路便是學習一些優秀的框架,先把這些框架用熟,可以確保能夠應付一些基本的爬蟲任務,也就是所謂的解決溫飽問題,然後再深入學...