Python筆記 爬蟲

2021-08-15 18:01:55 字數 2955 閱讀 2134

用到的庫:urllib。在python3.x中 urlretrieve函式也在urllib.request下,因此只需要匯入request即可。

from 

urllib import

request

基本的思路是: 【用request.urlopen()開啟網頁】  ->  【url.read().decode() 得到網頁原始碼】  ->  【re模組正規表示式得到gif檔案的url】  ->  【request.retrieve()爬取資料】

for 

i in

range(1

,5):        # 由於這個網頁只有5頁

url_0 =

''+str(i)+

'.html'

response = request.urlopen(url_0)       # 開啟url,注意這個時候的結果應該是2/8/16進製制

html = response.read().decode('utf-8')        # 用utf-8編譯

pattern = 

'/xieedongtaitu/\d.html'    

# 根據html的結果裡,手動找到html,寫正規表示式

article_list += re.findall(pattern,html)    # 找到所有子鏈結

for 

article in

article_list:

article =

''+article    # 注意到子連線並不完整,所以加上前面的部分

file_w = 

open('html.txt'

,'a')

for

i in

article_list2:

file_w.write(i+

',')                # 由於我並不會爬蟲,所以還是建乙個txt儲存一下,不然一直重複讀html很費時

file_w.close()

重複一下上述過程,得到gif檔案的鏈結,然後

def 

get_gif_file():

add =

open('gif_html.txt'

,'r').read().split('

\n')

for

i in

add:

request.urlretrieve(i ,i[-

17:])        # 爬取檔案

完整**:

get_gif_file()寫的真糙啊。。。。。_(:з」∠)_

Python爬蟲筆記

import requests 匯入requests模組 1.傳送請求 import requests r requests.get 2.定製headers 這種情況適用於爬取返回的結果出現 抱歉 無法訪問 等字眼時,這時需要模擬乙個介面伺服器自行爬取的狀態 import requests r re...

Python 爬蟲筆記

requests scrapy 兩個解析 html 文件的有力工具 lxml beautifulsoup4,一切暴露在網際網路中的資料,都不是絕對安全的,但絕對是需要費腦筋才需要得到的,爬蟲很簡單學,真正難的是反爬。requests 模組常用方法 單次請求 每傳送一次請求,就需要呼叫一次 多次請求 ...

python筆記 爬蟲

正規表示式 ref 爬ref 更新了一下 版本,刪去了函式調取。1.urllib re實現 import urllib.request import re url 根據url獲取網頁html內容 page urllib.request.urlopen url html page.read 從html...