Python3爬蟲入門 一

2021-10-11 09:27:34 字數 3202 閱讀 1019

python3爬蟲入門

在瀏覽器的位址列輸入url位址,在網頁處右鍵單擊,找到檢查。(不同瀏覽器的叫法不同,chrome瀏覽器叫做檢查,firefox瀏覽器叫做檢視元素,但是功能都是相同的)

可見即可爬(技術上)

違法的:擦邊球

一、url 專業一些的叫法是統一資源定位符(uniform resource locator),它的一般格式如下(帶方括號的為可選項):

protocol ?/ hostname[:port] / path / [;parameters][?query]#fragment

主要由前個三部分組成:

protocol:第一部分就是協議,例如google使用的是https協議;

hostname[:port]:第二部分就是主機名(還有埠號為可選引數),一般使用http協議的**預設的埠號為80、使用https協議的**埠號為443。

path:第三部分就是主機資源的具體位址,如目錄和檔名等也是就我們常說的路徑,這裡很重要我們訪問不同的路徑對應著我們向伺服器請求不同的資源,比如,京東這兩雙大拖鞋對應的path分別為

100006079301.html和100003887822.html

二、網路爬蟲的第一步就是根據 url ,獲取網頁的 html 資訊。在 python3 中,可以使用 urllib.request 和 requests 進行網頁爬取

1、request模組

- 安裝:pip3 install requests.  --- urllib,urllib2 (這兩個是py內建的),requests模組是基於這兩個模組封裝的

​# **** 基本使用 ****

# 匯入模組

# import requests

## # 傳送get請求,有返回結果

# resp = requests.get('')

## # 請求回來的內容

# print(resp.text)

## with open('a.html','w',encoding='utf-8') as f:

# f.write(resp.text)##

# # 請求返回的狀態碼

# print(res.status_code)

三、簡單例項

1、首先,讓我們看下 requests.get() 方法,它用於向伺服器發起 get 請求。

import requests

​if __name__ ==

'__main__'

: url=

""req = requests.get(url=url)

req.encoding =

'utf-8'

print(req.text)

執行結果:

<

!doctype html>

<

!--status ok-->

新聞hao123

地圖貼吧更多產品

開始寫**

# -*_coding:utf8-*-

​import requests

headers =

resp=requests.get(

'',headers=headers)

​sp=resp.text

print(sp)

注意京東這裡是反扒的,需要驗證agent,所以加了header。

發現資料有點多不好貼上,我們這裡設定只讀取一頁

執行結果:

fetchjson_comment98(

,"hotcommenttagstatistics":[

,,,,,,,,,

],"jwotestproduct":null,"maxpage":100,"testid"

:"cmt","score":0,"sotype":5,"imagelistcount":500,"vtagstatistics":null,"csv"

:"eid=100^^tagid=all^^pid=20006^^sku=100010958774^^sversion=1001^^pagesize=11","comments":[

,,,],"mergeorderstatus":2,"productcolor"

:"限量款196","productsize"

:"蘭蔻(lancome)口紅196 3.4g 菁純絲絨霧面啞光唇膏 化妝品禮盒 胡蘿蔔色","firstcategory":1316,"secondcategory":1387,"thirdcategory":1425,"aespin":null,"days":21,"afterdays":0}]}

);

python3 爬蟲入門

這裡爬取貓眼電影 top100 榜的資訊,作為學習的第乙個demo。今天開始接觸的python,從爬蟲開始。語言相對來說比較簡單,環境配置到是花了不少時間。有個要注意的點是在引入beautifursoup庫的時候會報錯,因為3.x的庫需要引入的是beautifursoup4.到這一步環境配置基本上o...

python3爬蟲入門

pip install requests2 匯入requests import requests 3 requests方法 requests.get 獲取html網頁的主要方法,對應http的get4 獲取流程 url 使用get方法獲取資料,返回包含網頁資料的response響應,超時時間測試 r...

python3爬蟲快速入門攻略

複製過來的內容 一 什麼是網路爬蟲?1 定義 網路爬蟲 web spider 又被稱為網頁蜘蛛,是一種按照一定的規則,自動地抓取 資訊的程式或者指令碼。2 簡介 網路蜘蛛是乙個很形象的名字。如果把網際網路比喻成乙個蜘蛛網,那麼spider就是在網上爬來爬去的蜘蛛。網路蜘蛛是通過網頁的鏈結位址來尋找網...