爬蟲和辦公自動化(一)

2021-10-24 21:13:36 字數 3189 閱讀 1006

爬蟲和辦公自動化(一)

1.獲取資料,爬蟲會根據我們提供的**,向伺服器發起請求獲取資料;

2.處理資料,對獲取的資料進行處理,得到我們需要的部分;

3.儲存資料,將處理後的資料儲存起來,便於後續的使用和分析等。

requests.get()方法

獲取資料 使用requests.get(『**』)方法想對應的**發起了請求,將返回的結果存到變數res中供後續使用,它的型別是response物件.

例:

import requests  # 匯入 requests 模組

res = requests.get('') # 發起請求

print(res)

輸出:200是狀態碼

response 物件的常用屬性:

res.status_code 響應的http狀態碼

res.text 響應內容的字串形式

res.conten 響應內容的二進位制形式

res.encoding 響應內容的編碼

res.status_code

import requests

res = requests.get('')

print(res.status_code)

輸出:200

200就是響應的狀態碼,表示請求成功

我們可以通過res.status_code的值來判斷請求是否成功。

res.text返回的是伺服器響應內容的字串形式,也就是文字內容

**返回的是**的純文字格式,源**和內容是一樣的

import requests

獲取孔乙己資料

res = requests.get('')

以寫入的方式開啟乙個名為孔乙己的 txt 文件

with open('孔乙己.txt', 'w') as file:

# 將資料的字串形式寫入檔案中

file.write(res.text)

說明:**涉及到了檔案操作

open()用於開啟檔案,返回值是乙個file物件

open() 函式接收的第乙個引數為檔名,第二個引數為檔案開啟模式。開啟模式預設為 r,是 read

的縮寫,表示唯讀模式。即只能讀取內容,不能修改內容。

在w和a模式下,如果開啟的檔案不存在,那麼open()函式回自動建立乙個

這些開啟模式還能兩兩組合,比如:rb 表示以二進位制格式開啟檔案用於讀取,wb 表示以二進位制格式開啟檔案用於寫入,ab

表示以二進位制格式開啟檔案用於追加寫入。

使用 open() 函式開啟檔案,操作完畢後,最後一定要呼叫 file 物件的 close() 方法關閉該檔案。所以一般我們像下面這樣讀寫檔案:

# 讀取檔案

file = open('文字.txt') # 開啟模式預設為 r,可省略

print(file.read()) # 呼叫 read() 方法讀取檔案內容

file.close() # 關閉檔案

# 寫入檔案

file = open('文字.txt', 'w') # 寫入模式

file.write('扇貝程式設計') # 呼叫 write() 方法寫入內容

file.close() # 關閉檔案

為了避免忘記呼叫 close() 方法關閉檔案,導致資源占用、檔案內容丟失等問題,推薦使用 with … as … 語法,它在最後會自動幫你關閉檔案。

# res=requests.get('')

# # 以二進位制寫入的方式開啟乙個名為 info.jpg 的檔案

# # 將資料的二進位制形式寫入檔案中

# film.write(res.content)

# # print(res.content)

# # #輸出的是的二進位制編碼。

res.encoding

編碼是資訊從一種形式或格式轉換為另一種形式的過程,常見的編碼方式有 ascii、gbk、utf-8 等。如果用和檔案編碼不同的方式去解碼,我們就會得到一些亂碼。

utf-8 最大的乙個特點,就是它是一種變長的編碼方式。它可以使用 1~4 個位元組表示乙個符號,根據不同的符號而變化位元組長度。

res.encoding 就是爬蟲獲取到資料的編碼格式,requests 庫會根據內容推測編碼格式是什麼,然後將 res.encoding 設成推測的格式,在訪問 res.text 時使用該格式解碼。

**筆記:

import requests

# res= requests.get('')

# print(res)#輸出:# print(res.status_code)#輸出200

# print(res.text)

# # 獲取孔乙己資料

# res = requests.get('')

# # 以寫入的方式開啟乙個名為孔乙己的 txt 文件

# with open('孔乙己.txt', 'w') as file:

# # 將資料的字串形式寫入檔案中

# file.write(res.text)

# res=requests.get('')

# # 以二進位制寫入的方式開啟乙個名為 info.jpg 的檔案

# # 將資料的二進位制形式寫入檔案中

# film.write(res.content)

# # print(res.content)

# # #輸出的是的二進位制編碼。

# res = requests.get('')

# print(res.encoding)

# # 輸出:iso-8859-1

# res = requests.get('')

# res.encoding ='utf-8'

# print(res.text)

# 輸出:

#

OA 辦公自動化

通常,oa 就是辦公自動化,英文office automation的縮寫。通過流程或特定環節與日常事務聯絡在一起,使公文在流轉 審批 發布等方面提高效率,實現辦公管理規範化和資訊規範化,降低企業執行成本的一套系統的統稱。多年來,oa尚無乙個確切的定義,人們對oa的看法和理解各有不同。筆者認為 oa本...

OA(辦公自動化)

2011 08 29 16 01 近期一直在研究oa,發現現在國產的oa軟體在實際應用中存在很多問題,並不像諸多廠家宣傳的那樣完美無瑕,甚至根本沒有體現出oa的真正辦公自動化的真諦。現行oa狀況大體是這樣的 1 企事業單位很多需要辦公自動化,但是又找不到乙個合適的oa產品,在選型上忐忑不安,猶豫不決...

辦公自動化 skydrive onedrive

國內暫時無法訪問onedrive,請按如下步驟操作嘗試 依次如下 在開始選單裡,單擊 所有程式 找到 附件 單擊找到裡面的 記事本 右鍵,然後選擇 以管理員身份執行 如果有對話方塊,選擇 是 然後單擊記事本視窗的 檔案 選單,選擇 開啟 在對話方塊中檔名處輸入引號內的內容,或者直接選擇如下目錄 c ...