爬蟲初學1

import urllib.request
import re
import chardet
'''#開啟網頁，讀取網頁，網頁解碼'''
page = urllib.request.urlopen('') # 開啟網頁
htmlcode = page.read() # 獲取網頁源**
# print(chardet.detect(htmlcode)) # 列印返回網頁的編碼方式 #使用中，chardet.detect()返回字典，其中confidence是檢測精確度，encoding是編碼形式
# print(htmlcode.decode('utf-8')) # 列印網頁源** #python decode() 方法以 encoding 指定的編碼格式解碼字串。預設編碼為字串編碼。該方法返回解碼後的字串。
'''#網頁資料存入'''
pagefile = open('d:\meitu\pagecode.txt', 'wb') # 以寫的方式開啟pagecode.txt
pagefile.write(htmlcode) # 寫入
pagefile.close() # 開了記得關
'''#正則，找到'''
data = htmlcode.decode('utf-8')
reg = r'src="(.+?\.jpg)"' # 正規表示式
reg_img = re.compile(reg) # 編譯一下，執行更快
imglist = reg_img.findall(data) # 進行匹配
# for img in imglist:
# print(img)
x = 0
for img in imglist:
print(img)
urllib.request.urlretrieve(img, 'd:\meitu\pig\%s.jpg' % x) #儲存在指定資料夾內
x += 1 #出現http error 502: bad gateway，需要加入請求頭
# ————————————————
# 4.0

初學python爬蟲

上之前先說下這個簡易爬蟲框架的思路排程器爬蟲的入口知道沒有url或爬蟲終端，輸出結果上 1，排程器 from myspider import urls manager,html html paser,html outer class legendspider object def init...

python爬蟲初學

0x01環境搭建 import os import requests from lxml import etree from urllib.parse import urljoin import urllib pip installl 包名字0x02介紹這裡寫了乙個爬的爬蟲指令碼如果不能解決就手...

爬蟲初學2

採用requests和parsel爬取美女 parsel 主要用來將請求後的字串格式解析成re,xpath,css進行內容的匹配本採用xpath 爬蟲初學2 設定請求頭運用parsel 進行爬取美女 import requests import parsel for page in range...

爬蟲初學1

初學python爬蟲

python爬蟲初學

爬蟲初學2

相關推薦