爬蟲初學1

2021-10-03 20:12:44 字數 1099 閱讀 3162

import urllib.request

import re

import chardet

'''#開啟網頁,讀取網頁,網頁解碼'''

page = urllib.request.urlopen('') # 開啟網頁

htmlcode = page.read() # 獲取網頁源**

# print(chardet.detect(htmlcode)) # 列印返回網頁的編碼方式 #使用中,chardet.detect()返回字典,其中confidence是檢測精確度,encoding是編碼形式

# print(htmlcode.decode('utf-8')) # 列印網頁源** #python decode() 方法以 encoding 指定的編碼格式解碼字串。預設編碼為字串編碼。該方法返回解碼後的字串。

'''#網頁資料存入'''

pagefile = open('d:\meitu\pagecode.txt', 'wb') # 以寫的方式開啟pagecode.txt

pagefile.write(htmlcode) # 寫入

pagefile.close() # 開了記得關

'''#正則,找到'''

data = htmlcode.decode('utf-8')

reg = r'src="(.+?\.jpg)"' # 正規表示式

reg_img = re.compile(reg) # 編譯一下,執行更快

imglist = reg_img.findall(data) # 進行匹配

# for img in imglist:

# print(img)

x = 0

for img in imglist:

print(img)

urllib.request.urlretrieve(img, 'd:\meitu\pig\%s.jpg' % x) #儲存在指定資料夾內

x += 1 #出現http error 502: bad gateway,需要加入請求頭

# ————————————————

# 4.0

初學python爬蟲

上 之前先說下這個簡易爬蟲框架的思路 排程器 爬蟲的入口 知道沒有url或爬蟲終端,輸出結果 上 1,排程器 from myspider import urls manager,html html paser,html outer class legendspider object def init...

python爬蟲初學

0x01環境搭建 import os import requests from lxml import etree from urllib.parse import urljoin import urllib pip installl 包名字0x02介紹這裡寫了乙個爬 的爬蟲指令碼 如果不能解決就手...

爬蟲初學2

採用requests和parsel爬取美女 parsel 主要用來將請求後的字串格式解析成re,xpath,css進行內容的匹配 本 採用xpath 爬蟲初學2 設定請求頭 運用parsel 進行爬取美女 import requests import parsel for page in range...