8 13 爬蟲筆記1

2021-08-22 19:45:37 字數 1489 閱讀 3297

爬蟲的過程

1.首先需要了解業務需求

2.根據需求,尋找**

3.將**資料獲取到本地 (可以通過urllib,requests等包)

4.定位資料(re xpath css json等)

5.儲存資料(mysql redis 檔案格式)

(2、爬取內容並寫入同檔案目錄下乙個新的html檔案)

from urllib import request

#確定目標

base_url=』

#發起http請求,返回類檔案物件

response=request.urlopen(url=base_url)

html=response.read()

html=html.decode(『utf-8』)

#寫入乙個同目錄下乙個新的html檔案

當用上面的**去爬取某些網頁時會獲取不到資料,此時就需要加入 headers 頭

二、西刺**html頁面

from urllib import request

url = 『

req = request.request(url,headers=headers)

response = request.urlopen(req)

info = response.read() #切記response僅僅返回一次

with open(『xicidaili.html』,』wb』) as f:

f.write(info)

#a. get(url, headers=none)

def get(url, headers=none):

return urlrequests(url, headers=headers)

def post(url, form, headers=none):

return urlrequests(url, form, headers=headers)

#b. post(url, form, headers=none)

傳入url

user_agent

headers

定義request

urlopen

返回byte陣列

return html_bytes
ifname== 『main『:

# url = 『

# form =

# html_bytes = post(url, form=form)

# print(html_bytes)

url = ''

html_byte = get(url)

print(html_byte)

Scrapy爬蟲筆記 1

1 安裝 使用pip install scrapy 假如使用了fiddler作為 伺服器進行除錯分析,為了避免該軟體的影響 開啟fiddler,進入 tools fiddler options connections 將 act as system proxy on startup 和 monito...

python爬蟲筆記(1)

人稱君子協議,規定了 中哪些資料是可以被爬取的 哪些 是不可以被爬取的。相比http協議,它是安全的超文字傳輸協議,採用證書金鑰加密 requests模組 python中原生的一款基於網路請求的模組,功能強大,簡單便捷,相對於urllib模組效率更高。作用 模擬瀏覽器傳送請求。如何使用 import...

爬蟲學習筆記1

目錄通過程式設計向網路伺服器請求資料 html表單 然後解析html,提取出自己想要的資料。哇 為何有種相見恨晚的趕腳?基礎知識可以參考一下崔慶才老師的官方部落格,基本知識點都提到了,就是不太深,但是作為入門夠了.這個鏈結的中文釋義就是,可以https這個協議訪問的資源,位於主機blog.csdn....