理解爬蟲原理

老師：missdu

 提交作業

1. 簡單說明爬蟲原理

爬蟲的原理是通過模擬請求的方式去訪問相關的開放頁面，通過**的方式去模擬觸發網頁的點選和跳轉，通過流的方式獲取到請求響應後的整個html資訊，

再通過一些工具類去篩選這些資訊中包含的有用的資訊；

2. 理解爬蟲開發過程

1).簡要說明瀏覽器工作原理；

遊覽器通過輸入url的請求位址後，獲取到web伺服器返回的html資訊，遊覽器對這些資訊進行解析渲染，最終呈現給使用者

2).使用 requests 庫抓取**資料；

requests.get(url) 獲取校園新聞首頁html**

import requests
res=requests.get('')
res.encoding = 'utf-8'

3).了解網頁

寫乙個簡單的html檔案，包含多個標籤，類，id

html = ' \\\

\this is link1\

this is link2\

\ '4).使用 beautiful soup 解析網頁；

通過beautifulsoup(html_sample,'html.parser')把上述html檔案解析成dom tree

select（選擇器）定位資料

找出含有特定標籤的html元素

找出含有特定類名的html元素

找出含有特定id名的html元素

from bs4 import beautifulsoup
import requests
url=''
html=requests.get(url=url)
html.encoding='utf-8'
order=beautifulsoup(html.text,'lxml')
order1=order.select('a')
order2=order.select('.gray')
order3=order.select('#img1')

3.提取一篇校園新聞的標題、發布時間、發布單位、作者、點選次數、內容等資訊

如url = ''

要求發布時間為datetime型別，點選次數為數值型，其它是字串型別。

temp=requests.get("")
temp.encoding='utf-8'
soups=beautifulsoup(temp.text,'html.parser')
title=soups.select('.show-title')[0].text
content_array=soups.select('.show-info')[0].text.split()
content=soups.select('#content')
actor=content_array[2]
click=requests.get("").text.split('.html')[-1].replace("(","").replace(")","").replace("'","").replace(";","")
date=datetime.strptime(publish_date+' '+content_array[1],'%y-%m-%d %h:%m:%s')

#獲取發布時間

#發布時間轉換成datetime型別

retime = datetime.strptime(retime,'%y-%m-%d %h:%m:%s')

#獲取新聞作者

author = info[2].split('：')[1]

#獲取審核

examine = info[3].split('：')[1]

#獲取新聞**

source = info[4].split('：')[1]

#獲取點選次數,轉換點選次數為int型別

理解爬蟲原理

本次作業於 1.簡單說明爬蟲原理請求並提取資料的自動化流程 2.理解爬蟲開發過程 1 簡要說明瀏覽器工作原理 web瀏覽器提交請求後，通過http協議傳送給web伺服器。web伺服器接到後，進行事務處理，處理結果又通過http傳回給web瀏覽器，從而在web瀏覽器上顯示出所請求的頁面。2 使...

理解爬蟲原理

本次作業於 1.簡單說明爬蟲原理爬蟲原理就是爬取網頁。2.理解爬蟲開發過程 1 簡要說明瀏覽器工作原理瀏覽器的主要功能是向伺服器發出請求，在瀏覽器中展示選擇的網路資源，一般資源就是html文件，也可以是pdf,imgage,或者其他型別，資源的位置由使用者使用uri 統一資源表示符指定。2 ...

理解爬蟲原理

1.簡單說明爬蟲原理 2.理解爬蟲開發過程 1 簡要說明瀏覽器工作原理 url解析 dns解析查詢網域名稱ip位址，網路連線發起http請求，http報文傳輸過程，伺服器接收資料，伺服器響應請求 mvc，伺服器返回資料，客戶端接收資料，瀏覽器載入渲染頁面，列印繪製輸出所看到的網頁。2 使用 req...

理解爬蟲原理

理解爬蟲原理

理解爬蟲原理

理解爬蟲原理

相關推薦