Scrapy 第一次爬蟲

2021-09-24 18:34:24 字數 3620 閱讀 9749

抓取某遊戲**的英雄技能資料

logging.info("kpl 技能名稱 " + spell)

輸出結果:

2019-06-26 15:49:36 [root] info: ['懲擊', '終結', '狂暴', '疾跑', '**術', '干擾', '暈眩', '淨化', '弱化', '閃現']

2019-06-26 15:49:36 [root] info: kpl 技能名稱 懲擊

2019-06-26 15:49:36 [root] info: kpl 技能名稱 終結

2019-06-26 15:49:36 [root] info: kpl 技能名稱 狂暴

2019-06-26 15:49:36 [root] info: kpl 技能名稱 疾跑

2019-06-26 15:49:36 [root] info: kpl 技能名稱 **術

2019-06-26 15:49:36 [root] info: kpl 技能名稱 干擾

2019-06-26 15:49:36 [root] info: kpl 技能名稱 暈眩

2019-06-26 15:49:36 [root] info: kpl 技能名稱 淨化

2019-06-26 15:49:36 [root] info: kpl 技能名稱 弱化

2019-06-26 15:49:36 [root] info: kpl 技能名稱 閃現

def parse(self, response):

spelllist = response.css("#spelllist li")

for spell in spelllist:

#標籤名::attr(屬性名) 獲取某一標籤下的屬性

id = spell.css("li::attr(id)").extract_first()

img = spell.css("img::attr(src)").extract_first()

name = spell.css("p::text").extract_first()

logging.info("id "+id)

logging.info("img "+img)

logging.info("name "+name)

輸出結果:

2019-06-26 16:54:04 [root] info: id 80104

2019-06-26 16:54:04 [root] info: img

2019-06-26 16:54:04 [root] info: name 懲擊

2019-06-26 16:54:04 [root] info: id 80108

2019-06-26 16:54:04 [root] info: img

2019-06-26 16:54:04 [root] info: name 終結

2019-06-26 16:54:04 [root] info: id 80110

2019-06-26 16:54:04 [root] info: img

2019-06-26 16:54:04 [root] info: name 狂暴

2019-06-26 16:54:04 [root] info: id 80109

2019-06-26 16:54:04 [root] info: img

2019-06-26 16:54:04 [root] info: name 疾跑

2019-06-26 16:54:04 [root] info: id 80102

2019-06-26 16:54:04 [root] info: img

2019-06-26 16:54:04 [root] info: name **術

2019-06-26 16:54:04 [root] info: id 80105

2019-06-26 16:54:04 [root] info: img

2019-06-26 16:54:04 [root] info: name 干擾

2019-06-26 16:54:04 [root] info: id 80103

2019-06-26 16:54:04 [root] info: img

2019-06-26 16:54:04 [root] info: name 暈眩

2019-06-26 16:54:04 [root] info: id 80107

2019-06-26 16:54:04 [root] info: img

2019-06-26 16:54:04 [root] info: name 淨化

2019-06-26 16:54:04 [root] info: id 80121

2019-06-26 16:54:04 [root] info: img

2019-06-26 16:54:04 [root] info: name 弱化

2019-06-26 16:54:04 [root] info: id 80115

2019-06-26 16:54:04 [root] info: img

2019-06-26 16:54:04 [root] info: name 閃現

(3)把資料寫進個檔案裡面

def parse(self, response):

spelllist = response.css("#spelllist li")

for spell in spelllist:

id = spell.css("li::attr(id)").extract_first()

img = spell.css("img::attr(src)").extract_first()

name = spell.css("p::text").extract_first()

filename = '技能.txt' # 爬取的內容存入檔案,檔名為:作者-語錄.txt

f = open(filename, "a+") # 追加寫入檔案

f.write("id:"+id ) # 寫入id內容

f.write('\n') # 換行

f.write("name:"+name) # 寫入技能名字內容

f.write('\n') # 換行

f.write('\n') # 換行

f.close() # 關閉檔案操作

爬蟲第一次

由於面試的需要,昨天看了下爬蟲,python的,原先一直以為很高階,但是才發現大體思路很清晰。1。連線到要抓取的某網 注意import urllib,比如這個樣子 def gethtml url page urllib.urlopen url html page.read return html 這...

第一次爬蟲

from bs4 import beautifulsoup import requests import time def get item info url 如何從詳情頁裡面要爬取的內容 url wb data requests.get url soup beautifulsoup wb data...

記第一次爬蟲

出不來結果的時候,真是著急,期間犯了很多錯誤,這個過程痛苦並快樂著 哈哈哈哈哈,哈哈哈哈哈 import urllib.request import re import os url page urllib.request.urlopen url read page page.decode gbk ...