Python爬取網路資料,並儲存到資料庫

2021-08-20 16:36:55 字數 1362 閱讀 2834

import pymysql

from bs4 import beautifulsoup

from selenium import webdriver

# 這是防止頻繁請求網頁而被斷開連線

driver = webdriver.phantomjs()

# 這是煎蛋網的**,那個page煎蛋網上是不固定的,所以,隨便取就好了

baseurl = ["".format(str(i)) for i in range(50689300, 50689350)]

# 開啟資料庫連線

db = pymysql.connect('localhost', 'root', 'new password', 'beautiful_girl')

# 建立乙個游標物件

cursor = db.cursor()

# 建立sql語句

sql = '''insert into picture(id, imgurl)values(%s, '%s')'''

# 建立乙個儲存資料的列表

img =

def catch():

# 建立id值

id = 1

# 迴圈位址,抓取不止乙個網頁的資料

for url in baseurl:

# 抓取第一步

driver.get(url)

data = driver.page_source

# 用來解析網頁原始碼

soup = beautifulsoup(data, "html.parser")

# 將所有div標籤 class屬性為row的所有標籤

all_data = soup.find_all("div", attrs=)

# 迴圈將這些標籤取出來

for j in all_data:

# 將裡面所有a標籤 class屬性為view_img_link的所有標籤取出來

img_url = j.find('a', attrs=)

# 去處a標籤中的所有路徑

link = img_url.get('href')

if link is none:

return

# 將路徑儲存到列表中

print(link)

# 迴圈將取出來

for i in img:

try:

# 儲存到資料庫

cursor.execute(sql % (id, i))

db.commit()

except:

db.rollback()

id += 1

db.close()

catch()

scrapy爬取資料並儲存到文字

1.scrapy專案結構如下 2.開啟spidler目錄下的duba.py檔案,如下 這個是根據豆瓣一部分頁面獲取的熱門話題內容,有6條資料 coding utf 8 import scrapy from scrapydemo.items import scrapydemoitem from lxm...

python 爬取HTML內容並儲存到txt檔案內

updatetime 2020 12 08 16 53 author wz file get webdetails software pycharm used 爬取任意頁面中任意資料 import re import urllib.request from utils.log import logg...

python爬取並計算成績

模擬登入後抓取成績,計算績點。coding utf 8 import urllib import urllib2 import cookielib import reimport string 績點運算 class sdu 類的初始化 def init self 登入url self.loginur...