python 爬蟲是什麼 python爬蟲什麼意思

2021-10-19 01:15:36 字數 822 閱讀 4753

python爬蟲指的是python網路爬蟲,又被稱為網頁蜘蛛,網路機械人,是一種按照一定的規則,自動地抓取全球資訊網資訊的程式或者指令碼,另外一些不常使用的名字還有螞蟻、自動索引、模擬程式或者蠕蟲。

簡單來說網際網路是由乙個個站點和網路裝置組成的大網,我們通過瀏覽器訪問站點,站點把html、js、css**返回給瀏覽器,這些**經過瀏覽器解析、渲染,將豐富多彩的網頁呈現我們眼前

如果我們把網際網路比作一張大的蜘蛛網,資料便是存放於蜘蛛網的各個節點,而python爬蟲就是乙隻小蜘蛛,

python爬蟲的基本原理

1、發起請求

使用http庫向目標站點發起請求,即傳送乙個request

request包含:請求頭、請求體等

request模組缺陷:不能執行js 和css **

2、獲取響應內容

如果伺服器能正常響應,則會得到乙個response

3、解析內容

解析html資料:正規表示式(re模組),第三方解析庫如beautifulsoup,pyquery等

解析json資料:json模組

解析二進位制資料:以wb的方式寫入檔案

4、儲存資料

資料庫(mysql,mongdb、redis)

「python爬蟲「是什麼呢?

python爬蟲是用python程式語言實現的網路爬蟲,主要用於網路資料的抓取和處理,相比於其他語言,python是一門非常適合開發網路爬蟲的程式語言,大量內建包,可以輕鬆實現網路爬蟲功能。python爬蟲可以做的事情很多,如搜尋引擎 採集資料 廣告過濾等,python爬蟲還可以用於資料分析,在資料...

爬蟲是什麼?

認識爬蟲是學習爬蟲的第一步。曾經我覺得爬蟲是乙個很高大上的玩意兒,高大上到我完全不知道它是做什麼用的。後來因為幫別人做乙個二手車 需要知道所有車的類別 車型 車系,於是就用curl抓去了某網的所有這方面資訊,對,你沒有猜錯,就是它的,算是用php的curl寫了乙個初級不能再初級的 爬蟲 才知道,我了...

python爬蟲是什麼概述 python爬蟲概述

爬蟲的使用 爬蟲用來對網路的資料資訊進行爬取,通過url的形式,將資料儲存在資料庫中並以文件形式或者報表形式進行展示。爬蟲可分為通用式爬蟲或特定式爬蟲,像我們經常用到的搜尋引擎就屬於通用式爬蟲,如果針對某一特定主題或者新聞進行爬取,則屬於特定式爬蟲。一般用到的第三方庫有urllib request ...