Scrapy 第一次爬蟲

抓取某遊戲**的英雄技能資料

logging.info("kpl 技能名稱 " + spell)

輸出結果：
2019-06-26 15:49:36 [root] info: ['懲擊', '終結', '狂暴', '疾跑', '**術', '干擾', '暈眩', '淨化', '弱化', '閃現']
2019-06-26 15:49:36 [root] info: kpl 技能名稱 懲擊
2019-06-26 15:49:36 [root] info: kpl 技能名稱 終結
2019-06-26 15:49:36 [root] info: kpl 技能名稱 狂暴
2019-06-26 15:49:36 [root] info: kpl 技能名稱 疾跑
2019-06-26 15:49:36 [root] info: kpl 技能名稱 **術
2019-06-26 15:49:36 [root] info: kpl 技能名稱 干擾
2019-06-26 15:49:36 [root] info: kpl 技能名稱 暈眩
2019-06-26 15:49:36 [root] info: kpl 技能名稱 淨化
2019-06-26 15:49:36 [root] info: kpl 技能名稱 弱化
2019-06-26 15:49:36 [root] info: kpl 技能名稱 閃現

def parse(self, response):
spelllist = response.css("#spelllist li")
for spell in spelllist:
#標籤名::attr(屬性名) 獲取某一標籤下的屬性
id = spell.css("li::attr(id)").extract_first() 
img = spell.css("img::attr(src)").extract_first()
name = spell.css("p::text").extract_first()
logging.info("id "+id)
logging.info("img "+img)
logging.info("name "+name)

輸出結果：
2019-06-26 16:54:04 [root] info: id 80104
2019-06-26 16:54:04 [root] info: img 
2019-06-26 16:54:04 [root] info: name 懲擊
2019-06-26 16:54:04 [root] info: id 80108
2019-06-26 16:54:04 [root] info: img 
2019-06-26 16:54:04 [root] info: name 終結
2019-06-26 16:54:04 [root] info: id 80110
2019-06-26 16:54:04 [root] info: img 
2019-06-26 16:54:04 [root] info: name 狂暴
2019-06-26 16:54:04 [root] info: id 80109
2019-06-26 16:54:04 [root] info: img 
2019-06-26 16:54:04 [root] info: name 疾跑
2019-06-26 16:54:04 [root] info: id 80102
2019-06-26 16:54:04 [root] info: img 
2019-06-26 16:54:04 [root] info: name **術
2019-06-26 16:54:04 [root] info: id 80105
2019-06-26 16:54:04 [root] info: img 
2019-06-26 16:54:04 [root] info: name 干擾
2019-06-26 16:54:04 [root] info: id 80103
2019-06-26 16:54:04 [root] info: img 
2019-06-26 16:54:04 [root] info: name 暈眩
2019-06-26 16:54:04 [root] info: id 80107
2019-06-26 16:54:04 [root] info: img 
2019-06-26 16:54:04 [root] info: name 淨化
2019-06-26 16:54:04 [root] info: id 80121
2019-06-26 16:54:04 [root] info: img 
2019-06-26 16:54:04 [root] info: name 弱化
2019-06-26 16:54:04 [root] info: id 80115
2019-06-26 16:54:04 [root] info: img 
2019-06-26 16:54:04 [root] info: name 閃現

（3）把資料寫進個檔案裡面

def parse(self, response):
spelllist = response.css("#spelllist li")
for spell in spelllist:
id = spell.css("li::attr(id)").extract_first()
img = spell.css("img::attr(src)").extract_first()
name = spell.css("p::text").extract_first()
filename = '技能.txt' # 爬取的內容存入檔案，檔名為：作者-語錄.txt
f = open(filename, "a+") # 追加寫入檔案
f.write("id："+id ) # 寫入id內容
f.write('\n') # 換行
f.write("name："+name) # 寫入技能名字內容
f.write('\n') # 換行
f.write('\n') # 換行
f.close() # 關閉檔案操作

爬蟲第一次

由於面試的需要，昨天看了下爬蟲，python的，原先一直以為很高階，但是才發現大體思路很清晰。1。連線到要抓取的某網注意import urllib，比如這個樣子 def gethtml url page urllib.urlopen url html page.read return html 這...

第一次爬蟲

from bs4 import beautifulsoup import requests import time def get item info url 如何從詳情頁裡面要爬取的內容 url wb data requests.get url soup beautifulsoup wb data...

記第一次爬蟲

出不來結果的時候，真是著急，期間犯了很多錯誤，這個過程痛苦並快樂著哈哈哈哈哈，哈哈哈哈哈 import urllib.request import re import os url page urllib.request.urlopen url read page page.decode gbk ...

Scrapy 第一次爬蟲

爬蟲第一次

第一次爬蟲

記第一次爬蟲

相關推薦