python的爬蟲基礎介紹

2021-08-09 16:08:10 字數 997 閱讀 7650

一:爬蟲是什麼

爬蟲從乙個url出發,訪問與它相關的url,自動訪問網際網路並提取資料的程式

python爬蟲的**架構:

二:url管理器

概念:管理待抓取的url集合和已抓取的url的集合

主要目的是防止重複抓取

url管理器將url集合可以放到3個地方:

1,python的記憶體中:存到set中。set()是python的一種資料結構呀,裡面的元素不重複且沒有順序   適合小型公司

2,關聯式資料庫中(mysql),主要原理:建立乙個表,將url永久儲存

3,快取資料庫(redis)支援set   支援大型資料

1,urllib是python提供的基礎模組

2,requests是python的第三方包,更加強大

1,用urllib.request.urlopen(url)方法

返回乙個請求:response

2,新增data,http header

3,新增特殊情境的處理器

1:網頁需要登入時才能處理用到cookie:httpcookieprocessor

2:https加密訪問:httpshandler

後面兩種目前沒有寫過例子

三:網頁解析器

概念:從網頁中提取有價值資料的工具

網頁解析器從html網頁中爬取有價值的資料或者url的列表

網頁解析器的分類:

1,正規表示式:適用於模糊匹配

2,html.parsel

3,beautifulsoup 第三方外掛程式

beautifulsoup是結構化解析成dom樹的模型,用find_all  ,find  搜素結點,搜尋節點的名稱,屬性,文字



python爬蟲介紹 python 爬蟲簡介

初識python爬蟲 網際網路簡單來說網際網路是由乙個個站點和網路裝置組成的大網,我們通過瀏覽器訪問站點,站點把html js css 返回給瀏覽器,這些 經過瀏覽器解析 渲染,將豐富多彩的網頁呈現我們眼前 一 什麼是爬蟲 網路爬蟲 又被稱為網頁蜘蛛,網路機械人,在foaf社群中間,更經常的稱為網頁...

Python 爬蟲介紹

1.python 爬蟲介紹 爬蟲 一段自動抓取網際網路資訊的程式,從網際網路上抓取對於我們有價值的資訊。url管理器 包括待爬取的url位址和已爬取的url位址,防止重複抓取url和迴圈抓取url,實現url管理器主要用三種方式,通過記憶體 資料庫 快取資料庫來實現。網頁解析器 將乙個網頁字串進行解...

python爬蟲學習 01爬蟲介紹

前戲 1.你是否在節假日出行高峰的時候,想快速搶購火車票成功 2.你是否在網上購物的時候,想快速且精準的定位到口碑質量最好的商品 什麼是爬蟲 通過編寫程式,模擬瀏覽器上網,然後讓其去網際網路上抓取資料的過程。爬蟲的價值 實際應用 就業 爬蟲究竟是合法還是違法的?如何在使用編寫爬蟲的過程中避免進入局子...