Python學習 簡單爬蟲及檔案儲存

2021-10-24 03:32:58 字數 1285 閱讀 6082

import requests

# 獲取**資訊

response = requests.get(""); #生成乙個response物件

#response.encoding = "utf-8"; #設定接收編碼格式

print("狀態碼:" + str(response.status_code)); #列印狀態碼

#print(response.text); #輸出爬取的資訊

#儲存檔案

file = open("d:\\baidu.html","w",encoding="utf") #開啟乙個檔案,w是檔案不存在則新建乙個檔案,這裡不用wb是因為不用儲存成二進位制

file.write(response.text);

file.close();

知乎資料抓取及儲存檔案:

import requests

#response = requests.get( "") #第一次訪問知乎,不設定頭部資訊

#print( "第一次,不設頭部資訊,狀態碼:"+response.status_code )# 沒寫headers,不能正常爬取,狀態碼不是 200

#下面是可以正常爬取的區別,更改了user-agent欄位

headers = #設定頭部資訊,偽裝瀏覽器

response = requests.get("" , headers=headers); #get方法訪問,傳入headers引數,

print("狀態碼:" + str(response.status_code)); # 200!訪問成功的狀態碼

#print(response.text);

#儲存檔案

file = open("d:\\zhuhu.html","w",encoding="utf") #開啟乙個檔案,w是檔案不存在則新建乙個檔案,這裡不用wb是因為不用儲存成二進位制

file.write(response.text);

file.close();

儲存:

import requests #先導入爬蟲的庫,不然呼叫不了爬蟲的函式

response = requests.get("") #get方法的到響應

file = open("d:\\baidu_logo.gif","wb") #開啟乙個檔案,wb表示以二進位制格式開啟乙個檔案只用於寫入

file.write(response.content) #寫入檔案

file.close()#關閉操作,執行完畢後去你的目錄看一眼有沒有儲存成功

Python簡單爬蟲學習

爬蟲 一段自動抓取網際網路資訊的程式。爬蟲排程器 程式入口,主要負責爬蟲程式的控制 url管理器 管理帶抓取url集合和已抓取的url集合。url實現的功能有 1.新增新的url到待爬去集合 2.判斷待新增url是否已存在 3.判斷是否還有待爬的url,將url從待爬集合移動到已爬集合 url的儲存...

簡單學習python爬蟲

學爬蟲之前首先知道什麼是爬蟲 ret.content 按照位元組顯示 ret.text 按照字串顯示 注 以上內容跟下面無關 1.新建乙個python專案spyder 名字自起 2.點選file中的settings 3.點選project spyder下的project interpreter 4....

python爬蟲簡單 python爬蟲 簡單版

學過python的帥哥都知道,爬蟲是python的非常好玩的東西,而且python自帶urllib urllib2 requests等的庫,為爬蟲的開發提供大大的方便。這次我要用urllib2,爬一堆風景。先上重點 1 response urllib2.urlopen url read 2 soup...