python爬取網頁資料到儲存到csv

2022-09-21 01:57:13 字數 2964 閱讀 1580

目錄

爬取乙個**,將**的資料儲存到csv中。

匯入包:

import requests

import parsel

import csv

設定csv檔案格式:

設計未來資料的儲存形式。

#開啟檔案

f = open('whxixi.csv', mode='a',encoding='utf-8',newline='')

#檔案列名

csv_writer= csv.dictwriter(f,fieldnwww.cppcns.comames=['電影名字',

'彈幕總數',

'新增評論',

'電影鏈結',

'電影日期',

'電影型別',

'電影演員',

'電影介紹'])

#輸入檔案列名

csv_writer.writeheader()

獲取資料:

獲取網頁的html,得到原始的資料( 得到的資料儲存在response中)。

#選擇愛奇藝熱播榜的**

url=''

headers =

#獲取**內容,賦值 到response

response = requests.get(url=url, headers=headers)

加工資料:

對得到的網頁原始資料進行加工處理,即提取出有用的資料。備註,根據爬取的網頁進行調整css()裡面的內容,不同**頁面的結構不同,根據需要進行調整。(f12開發者模式)

#把response.text轉換為selector物件 可以使用re, css,x-path選擇器

webtext = parsel.selector(response.text)

#第一步篩選資料,形成列表,可以使下次查詢形成迴圈

list=webtext.css('.rvi__list a')

#再上一步的基礎上,使用迴圈,進行提取資料

for li in list:

title= li.css(' .rvi__con .rvi__tit1::text').get()

bulletcomments =li.css('.rvi__con .rvi__tag__box span:nth-child(1)::text').get() #彈幕總數

newcomments =li.css(' .rvi__con .rvi__tag__box span:nth-child(2)::text').get() #新增評論數

csv_writer.writerow(dic) #將資料輸入到csv檔案中

import requests

import parsel

import csv

f = open('whxixi.csv', mode='a',encoding='utf-8',newline='')

csv_writer= csv.dictwriter(f,fieldnames=['電影名字',

'彈幕總數',

'新增評論',

'電影鏈結',

'電影日期',

'電影型別',

'電影演員',

'電影介紹'])

csv_writer.writeheader()

#選擇愛奇藝熱播榜的**

url=''

headers =

#獲取**內容,賦值 到response

response = reques程式設計客棧ts.get(url=url, headers=headers)

#把response.text轉換為selector物件 可以使用re, css,x-path選擇器

webtext = parsel.selector(response.tewww.cppcns.comxt)

#第一步篩選資料,形成列表,可以使下次查詢形成迴圈

list=webtext.css('.rvi__list a')

#再上一步的基礎上,使用迴圈,進行提取資料

for li in list:

title= li.css(' .rvi__con .rvi__tit1::text').get()

bulletcomments =li.css('.rvi__con .rvi__tag__box span:nth-child(1)::text').get() #彈幕總數

newcomments =li.css(' .rvi__con .rvi__tag__box span:nth-child(2)::text').get() #新增評論數

csv_writer.writerow(dic) #將資料輸入到csv檔案中

python爬取網頁資料

import refrom urllib.request import urlopen 爬取網頁資料資訊 def getpage url response urlopen url return response.read decode utf 8 defparsepage s ret re.find...

Python 簡單爬取網頁資料

爬取我的csdn網頁 import requests 時出現紅線,這時候,我們將游標對準requests,按快捷鍵 alt enter,pycharm會給出解決之道,這時候,選擇install package requests,pycharm就會自動為我們安裝了,我們只需要稍等片刻,這個庫就安裝好了...

java網頁資料爬取

在瀏覽器書籤中有許多經典的東西,有時候什麼忘記了需要去查詢的,也非常方便,但是痛苦的事情是某一天開啟書籤,居然那個頁面不知道飛哪去了,打不開,作為乙個程式設計師,當然不能容忍這種事情發生,那就把它們都爬下來。首先我們的書籤可能有幾種分類,為了處理方便,可以手動刪除我們不需要的,也可以程式處理一下 以...