python爬蟲總結

2021-09-07 13:11:40 字數 4290 閱讀 4413

import requests

import os

def getmanypages(keyword,pages):

params=

for i in range(30,30*pages+30,30): #從30開始,到30*pages結束,以30為跳躍

'tn': 'resultjson_com',

'ipn': 'rj',

'ct': 201326592,

'is': '',

'fp': 'result',

'queryword': keyword, #搜尋關鍵字

'cl': 2,

'lm': -1,

'ie': 'utf-8',

'oe': 'utf-8',

'adpicid': '',

'st': -1,

'z': '',

'ic': 0,

'word': keyword, #搜尋關鍵字

's': '',

'se': '',

'tab': '',

'width': '',

'height': '',

'face': 0,

'istype': 2,

'qc': '',

'nc': 1,

'fr': '',

'pn': i, #只有這個欄位在有規律的變化

'rn': 30,

'gsm': '1e',

'1488942260214': ''

})#url = ''

print('------------------------------')

url = 'search/acjson' #這個是抓取數要訪問的位址,在開發者工具中的network,headers下可以看到該位址

urls =

for i in params:

# print(requests.get(url,params=i).json().get('data')[2])

return urls

def getimg(datalist, localpath):

if not os.path.exists(localpath): # 新建資料夾

print('鏈結不存在')

if __name__ == '__main__':

getimg(datalist,'e:/pachong/') # 引數2:指定儲存的路徑

# -*- coding: utf-8 -*-

if not os.path.exists(localpath): # 新建資料夾

print('鏈結不存在')

if __name__ == '__main__':

getimg(datalist,'e:/pachong/animals/') # 引數2:指定儲存的路徑

直接把其他的列的資料刪除,然後只留下url那一列,然後另存為csv資料,直接在python程式中操作;

# -*- coding: utf-8 -*-

"""created on fri jan 4 16:52:03 2019

@author: administrator

"""import csv

import requests

import os

def getimg(datalist, localpath):

if not os.path.exists(localpath): # 新建資料夾

print('鏈結不存在')

if __name__ == '__main__':

urls=

csv_reader = csv.reader(open("nanjingurls.csv"))

for row in csv_reader:

print("urls的長度是:",len(urls))

#getimg(urls,'e:/piccccs/') # 引數2:指定儲存的路徑

根據url直接根據url中的日期建立子目錄

# -*- coding: utf-8 -*-

"""created on fri jan 4 16:52:03 2019

@author: administrator

"""import csv

import requests

import os

def getimg(datalist):

#if not os.path.exists(localpath): # 新建資料夾

#os.mkdir(localpath)

for url in datalist:

if url != none:

ir = requests.get(url)

localpath='e:/piccccs/'+(url.split('/'))[3]+'/' #記住加最後的斜槓

if not os.path.exists(localpath): # 新建資料夾

print('鏈結不存在')

if __name__ == '__main__':

urls=

csv_reader = csv.reader(open("nanjingurls.csv"))

for row in csv_reader:

print((urls[1001].split('/'))[3])

print("urls的長度是:",len(urls))

localpath='e:/piccccs/'+(urls[0].split('/'))[3]

print(localpath)

getimg(urls) # 引數2:指定儲存的路徑

Python 爬蟲總結

個人經驗,僅供參考,錯誤之處,敬請諒解 模組 requests,re 使用示例 這是闖關的簡單案例 encoding utf 8 import requests import re url start r requests.get url start number re.findall d r.te...

Python爬蟲總結

python爬蟲的原理 1通過urlopen 來獲取到url頁面,這個過程可以加 2這個頁面上都是字串,所以我們而通過字串查詢的方法來獲取到目標字串,用到了正則來匹配目標re.findall pattern,string 或者查詢頁面的字串,bs4.beautifulsoup html 可以將url...

Python爬蟲總結(一)入門

很多做資料分析的同學會抱怨沒有實際資料,感覺巧婦難為無公尺之炊,而火車頭採集器一類的軟體很難完成一些定製性很強的資料採集任務,這時候就需要自己編寫爬蟲來採集資料了。python是目前做爬蟲比較流行的工具。爬蟲一般通過傳送http https請求,從伺服器獲取資料,進一步解析獲取的資料,最後得到有用的...