第乙個爬蟲和測試

2022-08-23 09:51:11 字數 1801 閱讀 7478

一、什麼是網路爬蟲?

資訊時代,每天我們都在上網,每天我們都在瀏覽器上訪問**,我們開啟乙個網頁,接著又跳轉到另乙個網頁,看到喜歡的內容,或者是一段幽默的句子,或者是一張美女的,我們會選擇將其儲存下來,當數量很多的時候,我們就會選擇用程式來實現這樣乙個過程,實現自動瀏覽網頁,自動根據我們的要求,儲存我們想要的資料。於是,爬蟲就應運而生了。所以,簡單來說,爬蟲就是實現網頁自動瀏覽,資料自動儲存,根據我們的需要進行自動化瀏覽器的操作或者自動化測試的這樣一種程式。至於為啥要叫爬蟲,因為網際網路是一張很大的「蜘蛛網",爬蟲就好像是乙隻蜘蛛在網上爬來爬去。當然,這些完全是我自己的理解,你當作是一段文字來看,並非嚴謹的定義,爬蟲的範疇,越來越大!

二、需要哪些知識來寫爬蟲?

1.http協議:簡單而言,就是客戶端向伺服器發出一條http請求,伺服器收到請求之後會返回一些資料給客戶端,然後客戶端再對這些資料進行解析和處理。

2.html:網頁的編寫,超文字標記語言,要求能看懂一些網頁源**

3.正規表示式:完整的字串規則,查詢、替換等

三、首先 requests 庫基本方法介紹

requests顯式丟擲的異常都繼承自requests.exceptions.requestexceptio異常 說明

requests.connectionerror 網路連線錯誤異常,如dns查詢失敗、拒絕連線等

requests.httperror http錯誤異常

requests.urlrequired url缺失異常

requests.toomanyredirects 超過最大重定向次數,產生重定向異常

requests.connecttimeout 連線遠端伺服器超時異常

requests.timeout 請求url超時,產生超時異常

五、爬蟲的過程

1、向伺服器提出請求,request,伺服器響應回覆,response對得到的響應進行解析,這些響應可能是html,可用正規表示式對其解析,也可能是json物件,也有可能是二 進 制資料,這是可以儲存本地進一步處理。

2,對提出去來的資料進行結構化儲存。網頁比較簡單時直接處理,jison結構化的資料用正規表示式提取出來,另外原生的html網頁只包含源**,可能並不包含一些資料,這些資料是通過後期js介面呼叫之後拿到的

六、輸入**

# -*- coding: utf-8 -*-

"""created on wed may 22 16:08:18 2019

@author: admin

"""import requests

for i in range(20):

print("第",i+1,"次訪問")

r=requests.get("")

print("網路狀態碼:",r.status_code)

r.encoding="utf-8"

print(r.text)

print("text屬性長度:",len(r.text))

print("content屬性長度:",len(r.content))

七、執行結果

可以看到,谷歌爬蟲不了

這樣就結束了哦!

第乙個 爬蟲和測試

1.爬蟲 如下 import requests def gerhtmltext url try r requests.get url,timeout 1 r.raise for status r.encoding utf 8 return r.text except return 訪問錯誤 url ...

第乙個爬蟲和測試

一 用之前學過的try except進行除錯 測試球賽的gameover函式 可以看到是正確的,我們也可以試一試其他的數字比例。在這裡就不一一試了。requests庫是乙個簡潔且簡單的處理http請求的第三方庫。get 是對應與http的get方式,獲取網頁的最常用方法,可以增加timeout n ...

第乙個爬蟲和測試

1.測試球賽程式中的所有函式 import random from math import def printintro 列印程式的介紹性資訊 print 模擬桌球競賽 print 學號23 print 程式執行需要a和b的能力值 以0到1之間的小數表示 def getinputs 獲得使用者輸入的...