python爬蟲學習(一)

2022-01-30 16:43:07 字數 588 閱讀 7463

#簡單例子:抓取網頁全部內容後,根據正規表示式,獲取符合條件的字串列表

from urllib import request

#正規表示式

import re

url = ""

#讀取並解碼,針對中文 編碼是encode()

response = request.urlopen(url).read().decode()

print(response)

print(len(response))

print(type(response))

#正規表示式

pattern = r".*?"

data = re.findall(pattern, response)

print(data)

#是個list列表型別

print(type(data))

#簡單例子2:部分**會根據根據請求頭的user-agent判斷使用者訪問用的什麼瀏覽器,如果沒有此資訊則判定為爬蟲,然後請求會被遮蔽。此例子是自定義請求頭的user-agent 模擬瀏覽器傳送請求後抓取資料 根據正則獲取符合條件的字串列表

python 爬蟲學習一

爬取目標 為aspx 使用到了 viewstate eventvalidation cookie來驗證。使用beautifulsoup來解析網頁內容。encoding utf 8 from bs4 import beautifulsoup import urllib import urllib2 d...

python爬蟲學習經歷一

感謝csdn 博主 請叫我汪海 1.url的格式由三部分組成 第一部分是協議 或稱為服務方式 第二部分是存有該資源的主機ip位址 有時也包括埠號 第三部分是主機資源的具體位址,如目錄和檔名等。第一部分和第二部分用 符號隔開,第二部分和第三部分用 符號隔開。第一部分和第二部分是不可缺少的,第三部分有時...

Python 爬蟲學習稿(一)

本次學習的環境是基於python 3.3.5,實驗的工具是pycharm 5.0.1 基礎的知識我就不再介紹,比如http的基礎知識 爬蟲的相關背景 直接開始爬蟲的學習吧!常見的urllib2庫在python3.x的版本中改名啦!叫urllib.request了!urlopen 可以接收三個引數即u...