Python python 爬蟲學習

2022-09-06 03:51:12 字數 2666 閱讀 4678

response = requests.get("")

response.content.decode("utf-8")  返回bytes型別 decode解碼

response.text    request.encoding = "gbk" # 修改編碼 返回str型別 

獲取

#

# 狀態碼 

response.status_code 

# 響應頭

response.headers

# 請求頭

response.request.headers

200

# 傳送帶header的請求 

#

coding=utf-8

import

requests

url = "

"}response = requests.get(url,headers=

headers)

print

(response.status_code)

print

(response.headers)

print

(response.request.headers)

# 傳送帶引數的請求 

# 佔位符 建議使用format+ {} 代替 

input_string = input("")

url = "/s?wd={}".format(input_string) || url = ""%input_string 

列表推導式

# 範圍0~9 

[i for i in range(10)]

# i對2取餘 輸出 

[i%2 for i in range(10)]

# i對2取餘,如果對而取餘等於0 則輸出 

[i%2 for i in range(10) if i%2==0]

## 物件導向 

- 物件

- 生活中的事務

- 類- 對事務的抽象 在**中實現class 型別

- 例項

- 使用之前對類的例項化之後的結果

# get 請求貼吧 

#

coding=utf-8

import

requests

class

tiebaspider:

def__init__

(self,tieba_name):

self.tieba_name =tieba_name

self.url_temp = "

"+tieba_name+"

&ie=utf-8&pn={}

"self.headers =

defget_url_list(self):

return [self.url_temp.format(i*50) for i in range(10)]

defparse_url(self, url):

response = requests.get(url, headers=self.headers)

return response.content.decode("

utf-8")

defs**e_html_str(self, html_str, page_num):

file_path = "

{}-第{}頁

".format(self.tieba_name, page_num)

with open(file_path, "w

", encoding="

utf-8

") as f:

f.write(html_str)

defrun(self):

#1 構造url

url_list =self.get_url_list()

#2 傳送請求 獲取相應

for url in

url_list:

html_str =self.parse_url(url)

#3 儲存

page_num = url_list.index(url) + 1self.s**e_html_str(html_str, page_num)

if__name__ == "

__main__":

tieba_spider = tiebaspider("李毅")

tieba_spider.run()

# 儲存貼吧內容到本地 

# post 請求  安全 大文字傳輸 

data =   # 字典

requests.post("",data = data,headers=headers)

Python Python網路爬蟲(二)

中國大學排名定向爬蟲 url import requests from bs4 import beautifulsoup import bs4 獲取html defgethtmltext url try r requests.get url,timeout 30 r.raise for status...

防盜煉python Python爬蟲學習指南

1,基礎篇 2,高階篇 3,高階篇 python 基礎是學習python爬蟲不可少的abc,爬蟲簡單的理解,就是通過程式模擬人操作網路傳送請求,獲取資料返回,清洗,篩選,整理出有用的資料,結構化儲存資料,方便資料的瀏覽,計算,視覺化,最終實現數字的描述型價值與 型價值 基礎庫urllib,urlll...

小白學爬蟲

最近剛開始學習爬蟲,準備將自己的學習情況寫下來。一是為了鞏固記憶,二是為了更好的與人交流,讓我的爬蟲之路不孤單。下面展示一下爬取資料的過程。1 首先需要匯入requests模組,requests模組需要安裝。2 通過url獲得響應物件,具體是通過get請求還是post請求這篇文章講的很好reques...