理解爬蟲原理

作業要求：

1. 簡單說明爬蟲原理

向**發起請求，獲取資源後分析並提取有用資料的程式；

2. 理解爬蟲開發過程

1).簡要說明瀏覽器工作原理；

發起請求（使用http庫向目標站點發起請求，即傳送乙個request）

獲取響應內容（如果伺服器能正常響應，則會得到乙個response）

解析內容（解析html資料：正規表示式（re模組），第三方解析庫如beautifulsoup，pyquery等）

儲存資料（資料庫（mysql，mongdb、redis）和檔案）

2).使用 requests 庫抓取**資料；

requests.get(url) 獲取校園新聞首頁html**

url='
'res=requests.get(url)

3).了解網頁寫乙個簡單的html檔案，包含多個標籤，類，id4).使用 beautiful soup 解析網頁；

通過beautifulsoup(html_sample,'html.parser')把上述html檔案解析成dom tree

select（選擇器）定位資料

找出含有特定標籤的html元素

找出含有特定類名的html元素

找出含有特定id名的html元素

**：

import
requests
from bs4 import
beautifulsoup
html_sample = '\\
\ \
this is link1\
this is link2\
\'soup = beautifulsoup(html_sample,'
html.parser')
soup.text
#找出標籤為『h1』的html元素,返回list
print(soup.select('h1'
)[0].text)
#找出類名為『link』的html元素
for i in range(len(soup.select('
.link
'))):
print(soup.select('
.link
')[i].text)
#找出含有特定id名的html元素
print(soup.select('
#title
')[0].text)

執行結果：

3.提取一篇校園新聞的標題、發布時間、發布單位

url = ''

**：

import
requests
from bs4 import
beautifulsoup
url='
'res=requests.get(url)
type(res)
res.encoding="
utf-8
"res.text
soup=beautifulsoup(res.text,'
html.parser')
print("
"+soup.select('
.show-title
')[0].text)
print("
"+soup.select('
.show-info
')[0].text)

執行結果：

理解爬蟲原理

本次作業於 1.簡單說明爬蟲原理請求並提取資料的自動化流程 2.理解爬蟲開發過程 1 簡要說明瀏覽器工作原理 web瀏覽器提交請求後，通過http協議傳送給web伺服器。web伺服器接到後，進行事務處理，處理結果又通過http傳回給web瀏覽器，從而在web瀏覽器上顯示出所請求的頁面。2 使...

理解爬蟲原理

本次作業於 1.簡單說明爬蟲原理爬蟲原理就是爬取網頁。2.理解爬蟲開發過程 1 簡要說明瀏覽器工作原理瀏覽器的主要功能是向伺服器發出請求，在瀏覽器中展示選擇的網路資源，一般資源就是html文件，也可以是pdf,imgage,或者其他型別，資源的位置由使用者使用uri 統一資源表示符指定。2 ...

理解爬蟲原理

老師 missdu 提交作業 1.簡單說明爬蟲原理爬蟲的原理是通過模擬請求的方式去訪問相關的開放頁面，通過的方式去模擬觸發網頁的點選和跳轉，通過流的方式獲取到請求響應後的整個html資訊，再通過一些工具類去篩選這些資訊中包含的有用的資訊 2.理解爬蟲開發過程 1 簡要說明瀏覽器工作原理遊覽器通...

理解爬蟲原理

理解爬蟲原理

理解爬蟲原理

理解爬蟲原理

相關推薦