資料抓取一

2022-08-10 19:18:18 字數 1029 閱讀 3174

資料抓取一

一.今日任務

將資料檔案 spider.log根據要求轉存為

ans0201.csv

二.主要內容

任務分析以及實現方式

根據要求,我們需要取出spider.log檔案中的相關字段,使用

python

中的讀取檔案,每行資料都有相同的規律,按行讀取,取出相應字段,然後建立

csv檔案,之後將讀取的檔案按要求寫入

csv使用語言工具  python

模組  os

主要原始碼

import csv

import codecs

list =

listcsv =

def readlog():   #

按行讀取資料檔案,如果鏈結是

movie

,則是我們需要的資料

去除多餘的資料,拿到需要的電影名,上映時間等

寫入csv

檔案f = codecs.open('ans0201.csv','w','utf-8')

writer = csv.writer(f)

for i in list:

writer.writerow(i)

f.close()

if __name__ =="__main__":

list = anydata(readlog())

print(list)

writecsv(list)

三.遇到問題

檔案資料需要進行篩選

篩選過的資料需要按規則進行過濾

csv檔案讀寫

四.解決方式

關於檔案資料的問題,剛開始沒看明白,後來注意到題目中的鏈結是固定的,根據鏈結可以篩選出所需要的網頁收集的資料

關於資料過濾,第一是每一行的第乙個資料只需要名字,第二是票房的資料刪除票房文字

csv檔案讀寫在網上有檔案讀寫的方式,按照方法來參照著寫

nodejs抓取資料一 列表抓取

純屬初學.有很多需要改進的地方,請多多指點.目標是抓取58同城 這個大分類下的列表資料 簡單分析 1.按照以下二級分類來獲取每個列表的資料,2.主要分頁 可以看出,其分頁是pn5 這裡設定的,那麼這個5就是頁碼了.3.號碼 實在隱藏的div裡面,點選 聯絡商家即可看到.但是對於程式來說.只可以直接取...

Jsoup抓取資料

首先我們來看來自 的乙個html片段,了解其結構。class detail style display block class add jrsj plus bookid 609737 em class mark63 href target blank src alt 不死龍帝 style width...

Xmind Java資料抓取

思路 1,登入。2,登入成功後獲得cookie。3,將cookie放到請求頭中,向登入頁傳送請求。1.獲得url物件 url url newurl urlstring 2.開啟連線 3.向request中注入cookie urlconn.setrequestproperty cookie cooki...