html續篇及初識爬蟲

2022-07-25 20:48:10 字數 2208 閱讀 7266

作用:能夠獲取前端使用者輸入的資訊傳送給後端

以使用者註冊為例

form表單重要的幾個引數

action

控制資料提交到哪個後端

method

控制朝後端提交的請求方法

form表單預設使用的是get請求

獲取使用者輸入需要使用input標籤

input標籤一般情況下需要結合label標籤一起使用

但是不配合也不影響

使用者名稱:

input標籤

type屬性

text 普通文字

password 密文展示

date 日期

radio 單選

checkbox 多選

redio和checkbox如果要設定預設選中加checked即可

file 上傳檔案

email 獲取郵箱格式

submit 觸發提交資料的動作

button 普通按鈕 本身沒有任何功能

reset 重置輸入

select標籤 下拉框

乙個個選項就是乙個個的option標籤

預設是單選的

加上multiple變為多選

預設選中加selected

textarea標籤

獲取大段的文字輸入

id

類似於身份證號 同乙個html頁面中id不能重複

class

類似於物件導向裡面的類的繼承 乙個標籤可以有多個類

爬蟲的基本流程

傳送請求 獲取響應 解析內容 儲存資料

requests模組

能夠模擬瀏覽器傳送請求 比urllib模組更加方便

pip3 install requests

# pip3 install django== 1.11.11

基本使用

import requests

# requests.get() # 朝服務端傳送get請求

# requests.post() # 朝服務端傳送post請求 # res=requests.get("")

# res.encoding='utf-8' # 修改編碼

# print(res.text) # 獲取頁面html**

# with open(r'獲取頁面.html','w',encoding='utf-8')

as f:

# f.write(res.text)

加請求頭

headers

加攜帶的引數

params

如果涉及到轉碼需要模組

from urllib.parse import urlencode

res1 = urlencode(params,encoding='utf-8')

print(res1)

wd=%e7%be%8e%e5%a5%b3

1.校驗當前請求者是否是乙個瀏覽器

請求來了之後我們會先取請求頭裡面檢視是否有攜帶user-agent引數,如果攜帶了說明是乙個瀏覽器如過沒攜帶說明你是乙個程式

2.校驗你當前的請求是否是本**發出的

referer: # 從哪兒來

請求來了之後會去請求頭中校驗referer判斷後面的**是否輸入我們的**的

如果不是也不會拒絕

防盜煉

http協議

四大特性

1.基於tcp/ip作用於應用層之上的協議

2.基於請求響應

3.無狀態

4.無連線

無狀態 不儲存使用者狀態,所有的使用者無論來多少次對於服務端來說都是初見

針對無狀態的特點我們需要找到一種可以記錄客戶端狀態的方法

cookie

儲存在客戶端瀏覽器上面的鍵值對

就拿登入功能舉例

當你第一次輸入了使用者名稱和密碼之後

我的服務端會給你返回乙個隨機字串

你儲存在瀏覽器上

之後再訪問服務端的時候你把這個隨機字串帶給我

我來校驗這個字串跟我之前給你這個使用者的是否

username jason

password 123

session

儲存在服務端上面的鍵值對

給客戶端乙個隨機的字串

爬蟲學習 初識HTML

hyper text markup language html 超文字標記語言,是用來描述網頁的一種語言。那麼標記語言又是什麼呢?標記語言就是把文字和文字以外的相關資訊 例如大小,高度,顏色,位置等 組合在一起的語言 功能 用於網頁的編寫和修改。我們學習html的階段 看懂 修改 編寫。學習爬蟲要掌...

爬蟲 爬蟲初識

網路爬蟲 又被稱為網頁蜘蛛,網路機械人 是一種按照一定的規則,自動地抓取全球資訊網資訊的程式或者指令碼,通俗的講就是通過程式去獲取web頁面上自己想要的資料,也就是自動抓取資料。發起請求 通過http庫向目標站點發起請求,也就是傳送乙個request,請求可以包含額外的header等資訊,等待伺服器...

爬蟲(一)初識爬蟲

網路爬蟲 又被稱為網頁蜘蛛,網路機械人 就是模擬瀏覽器傳送網路請求,接收請求響應,一種按照一定的規則,自動地抓取網際網路資訊的程式。原則上,只要是瀏覽器 客戶端 能做的事情,爬蟲都能夠做 爬蟲的工作流程 robots協議 通過robots協議告訴搜尋引擎哪些頁面可以抓取,哪些頁面不能抓取,但它僅僅是...