理解爬蟲原理

2022-09-10 13:33:27 字數 2131 閱讀 2793

作業要求:

1. 簡單說明爬蟲原理

向**發起請求,獲取資源後分析並提取有用資料的程式;

2. 理解爬蟲開發過程

1).簡要說明瀏覽器工作原理;

發起請求(使用http庫向目標站點發起請求,即傳送乙個request)

獲取響應內容(如果伺服器能正常響應,則會得到乙個response)

解析內容(解析html資料:正規表示式(re模組),第三方解析庫如beautifulsoup,pyquery等)

儲存資料(資料庫(mysql,mongdb、redis)和檔案)

2).使用 requests 庫抓取**資料;

requests.get(url) 獲取校園新聞首頁html**

url='

'res=requests.get(url)

3).了解網頁寫乙個簡單的html檔案,包含多個標籤,類,id4).使用 beautiful soup 解析網頁;

通過beautifulsoup(html_sample,'html.parser')把上述html檔案解析成dom tree

select(選擇器)定位資料

找出含有特定標籤的html元素

找出含有特定類名的html元素

找出含有特定id名的html元素

**:

import

requests

from bs4 import

beautifulsoup

html_sample = '\\

\ \

this is link1\

this is link2\

\'soup = beautifulsoup(html_sample,'

html.parser')

soup.text

#找出標籤為『h1』的html元素,返回list

print(soup.select('h1'

)[0].text)

#找出類名為『link』的html元素

for i in range(len(soup.select('

.link

'))):

print(soup.select('

.link

')[i].text)

#找出含有特定id名的html元素

print(soup.select('

#title

')[0].text)

執行結果:

3.提取一篇校園新聞的標題、發布時間、發布單位

url = ''

**:

import

requests

from bs4 import

beautifulsoup

url='

'res=requests.get(url)

type(res)

res.encoding="

utf-8

"res.text

soup=beautifulsoup(res.text,'

html.parser')

print("

"+soup.select('

.show-title

')[0].text)

print("

"+soup.select('

.show-info

')[0].text)

執行結果:

理解爬蟲原理

本次作業 於 1.簡單說明爬蟲原理 請求 並提取資料的自動化流程 2.理解爬蟲開發過程 1 簡要說明瀏覽器工作原理 web瀏覽器提交請求後,通過http協議傳送給web伺服器。web伺服器接到後,進行事務處理,處理結果又通過http傳回給web瀏覽器,從而在web瀏覽器上顯示出所請求 的頁面。2 使...

理解爬蟲原理

本次作業 於 1.簡單說明爬蟲原理 爬蟲原理就是爬取網頁。2.理解爬蟲開發過程 1 簡要說明瀏覽器工作原理 瀏覽器的主要功能是向伺服器發出請求,在瀏覽器中展示選擇的網路資源,一般資源就是html文件,也可以是pdf,imgage,或者其他型別,資源的位置由使用者使用uri 統一資源表示符 指定。2 ...

理解爬蟲原理

老師 missdu 提交作業 1.簡單說明爬蟲原理 爬蟲的原理是通過模擬請求的方式去訪問相關的開放頁面,通過 的方式去模擬觸發網頁的點選和跳轉,通過流的方式獲取到請求響應後的整個html資訊,再通過一些工具類去篩選這些資訊中包含的有用的資訊 2.理解爬蟲開發過程 1 簡要說明瀏覽器工作原理 遊覽器通...