python資料爬下來儲存的位置

2022-09-29 12:57:17 字數 1347 閱讀 1001

昨天下班後忽然興起想寫乙個爬蟲抓抓網頁上的東西。花了乙個鐘簡單學習了python的基礎語法,然後參照網上的例子自己寫了個爬蟲。

python資料爬下來儲存在本地,一般是檔案或資料庫中,但是檔案形式相比要更加簡單,如果www.cppcns.com只是自己寫爬蟲玩,可以用檔案形式來儲存資料。

#coding=utf-8

import urllib.request

import re

import os

'''urllwww.cppcns.comib 模組提供了讀取web頁面資料的介面,我們可以像讀取本地檔案一樣讀取www和ftp上的資料

urlopen 方法用來開啟乙個url

read方法 用於讀取url上的資料

html = gethtml("程式設計客棧n/34378366").decode("utf-8");

imagesurl = getimg(html);

if os.path.exists("d:/imags") == false:

os.mkdir("d:/imags");

count = 0;

for url in imagesurl:

print(url)

if(url.find('.') != -1):

name = url[url.find('.',len(url) - 5):];

bytes = urllib.request.urlopen(url);

程式設計客棧 f = open("d:/imags/"+str(count)+name, 'wb');

f.write(bytes.read());

f.flush();

f.close();

count+=1

經測試,基本功能還是可以實現的。花的較多的時間就是正則匹配**,因為自己對正規表示式也不是非常熟悉。所以還是花了點時間。

注:上面的程式基於 python 3.5。python3 和 python2 還是有些區別的。我剛開始看基礎語法的時候就栽了一些坑里。

以上就是python資料爬下來儲存www.cppcns.com在**的詳細內容,感謝大家的學習和對我們的支援。

本文標題: python資料爬下來儲存的位置

本文位址:

關於python爬蟲中報錯以及爬下來的資料中文亂碼

爬蟲報錯以及爬下來的html中文亂碼 最近在學習python爬蟲時,用requests.get獲取的資料進行decode 時發現程式會報錯,因為python預設以utf 8進行decode,報錯提示utf 8無法decode,因此用decode utf 8 同樣會報錯。在網上查詢了一下說指定用gbk...

python 儲存float型別的小數的位數方法

python保留兩位小數 in 1 a 5.026 in 2 b 5.000 in 3 round a,2 out 3 5.03 in 4 round b,2 out 4 5.0 in 5 2f a out 5 5.03 in 6 2f b out 6 5.00 in 7 float 2f a ou...

bitmap 位儲存實現海量資料的標記

針對海量的資料,一般的記憶體無法儲存,提供一種位儲存的標記方法?如給定10億個數字,詢問其中任意乙個數字是否出現,採取傳統的儲存方式,以32位機器為例 乙個int占用32位,也就是4位元組 而bitmap的思想是,無符號int型別的範圍是確定的 即0 2的32次方 1 那麼將乙個int拆分開來看,其...