爬蟲的基本原理 Python3

獲取網頁就是獲取網頁的源**。python本身提供的庫有：urllib, request等。

示例：獲取知識星球登入頁

"""獲取知識星球登入頁

"""from urllib import request

url = ''

res = request.urlopen(url) # 得到httpresponse物件

html_page = res.read().decode('utf8') # 獲取登入頁面源**，型別是字串

print(html_page)

網頁獲取源**後就是分析網頁，提取到我們想要的資料。提取資料主要有以下方法：

1.使用正規表示式提取資訊。方法萬能，但是複雜。

2. 使用相關提取資料的庫提取資訊。如beautiful soap, pyquery, lxml等。

示例：獲取知識星球登入頁「」標籤裡面的內容。

"""獲取知識星球登入頁

"""from urllib import request

import re

url = ''

res = request.urlopen(url) # 獲取httpresponse物件

html_page = res.read().decode('utf8') # 獲取登入頁面源**，型別是字串

print(html_page)

data = re.findall('(.*)', html_page) # findall()總返回乙個列表

print(data[0]) # 知識星球

獲取資料後為了方便以後使用，需要將資料儲存。有以下幾種儲存方式：

1.儲存為txt, json等文字。

2.儲存到mysql, mongodb等資料庫。

3.其他

示例：將title標籤裡面的內容儲存到test.txt文字

# -*- coding:utf-8 -*-
"""獲取知識星球登入頁
"""from urllib import request
import re
url = ''
res = request.urlopen(url) # 獲取httpresponse物件
html_page = res.read().decode('utf8') # 獲取登入頁面源**，型別是字串
print(html_page)
data = re.findall('(.*)', html_page) # findall()總返回乙個列表
print(data[0]) # 知識星球
# 將資料儲存到test.txt檔案
with open('test.txt', 'w', encoding='utf8') as out_file: # 開啟檔案
out_file.write(data[0]) # 將資料寫入到檔案
out_file.close() # 關閉檔案

[1]python官方文件url.request:

[2]崔慶才，《python3網路爬蟲開發實戰》

爬蟲基本原理

一爬蟲是什麼?爬蟲要做的是什麼？使用者獲取網路資料的方式是爬蟲程式要做的就是區別在於我們的爬蟲程式只提取網頁中對我們有用的資料為什麼要做爬蟲爬蟲的價值網際網路中最有價值的便是資料，比如天貓的商品資訊，鏈家網的租房資訊，雪球網的投資資訊等等，這些資料都代表了各個行業的真金可以說，...

爬蟲基本原理

三種爬蟲方式通用爬蟲抓取系統重要組成部分，獲取的是整張頁面資料聚焦爬蟲建立在通用爬蟲之上，抓取頁面指定的區域性內容增量式爬蟲檢測資料更新的情況，只抓取更新出來的資料 https協議安全的超文字傳輸協議證書秘鑰加密請求頭響應頭加密方式傳送請求獲取響應內容解析內容儲存資料...

爬蟲基本原理

一爬蟲介紹本質，就是想傳送http請求，拿回一些頁面 json格式資料 request 處理資料，解析出有用的東西 re，bs4 儲存 mysql，檔案，cvs，redis，mongodb，es 分析 cookie池和池正向和反向正向自己，反向伺服器爬蟲運用模組 requests...

爬蟲的基本原理 Python3

爬蟲基本原理

爬蟲基本原理

爬蟲基本原理

相關推薦