python爬蟲基礎

2021-09-02 16:34:01 字數 708 閱讀 4876

爬蟲

爬蟲,全稱網路爬蟲,指按照一定的規則(模擬瀏覽器人工登入網頁的方式),自動抓取網路資訊資料的程式。簡單的說,就是將瀏覽器上網所能看到頁面上的內容通過爬蟲程式自動獲取下來,並進行儲存。

爬蟲其實就是乙個程式自動收集獲取指定網路資料資訊的過程,網路資料資訊量十分龐大,人工獲取無法完成,這時就需要爬蟲來完成了。另外做資料探勘、資料分析也是需要大量的資料做實驗基礎,爬蟲就能很好的獲得資料。

理論上來講,瀏覽器能獲取到的資訊,爬蟲程式都能獲取到。

1.    爬蟲的分類

網路爬蟲按照系統結構和實現技術,大致可以分為以下幾種型別:通用網路爬蟲、聚焦網路爬蟲、增量式網路爬蟲、深層網路爬蟲。實際的網路爬蟲系統通常是幾種爬蟲技術相結合實現的。

(2)    聚焦網路爬蟲

聚焦網路爬蟲,是指選擇性地爬行那些與預先指定了規則網頁或者資料資訊的網路爬蟲。 這類爬蟲指定了待爬取的url的範圍或者過濾規則,只獲取預期的資料資訊,相對更具有針對性,更新更快。

(1)    廣度優先搜尋

廣度優先搜尋策略是指在抓取過程中,在完成當前層次的搜尋後,才進行下一層次的搜尋。該演算法的設計和實現相對簡單。在目前為覆蓋盡可能多的網頁,一般使用廣度優先搜尋方法。

(2)    最佳優先搜尋

最佳優先搜尋策略按照一定的網頁分析演算法,**候選url與目標網頁的相似度,或與主題的相關性,並選取評價最好的乙個或幾個url進行抓取。它只訪問經過網頁分析演算法**為「有用」的網頁。

python爬蟲基礎

一 什麼是爬蟲 通常爬蟲是從某個 的某個頁面開始,爬取這個頁面的內容,找到網頁中的其他鏈結位址,然後從這個位址爬到下乙個頁面,這樣一直不停的爬下去,進去批量的抓取資訊。那麼,我們可以看出網路爬蟲就是乙個不停爬取網頁抓取資訊的程式。二 爬蟲的基本流程 1,發起請求 向目標站點傳送乙個requests請...

python 爬蟲基礎

urllib 或 requests re 01 r 大圖的 pat re.compile re 01 建立乙個正規表示式的模板 imgurls re.findall pat,data 開始匹配 print len imgurls imgurls i 0 for imgurl in imgurls i...

Python 爬蟲基礎

by 小?post請求 cookies session beautifulsoup庫 scrapy框架 import requests response requests.get 或者response requests.request get import requests kw headers p...