scrapy爬蟲第一階段 爬取多級url

2021-12-29 19:43:24 字數 1151 閱讀 2686

實驗需要爬取一族pm2.5資料,糾結了幾天爬蟲,總算取得階段性勝利,至少夠專案用了

原理再研究,會用先:

class dmozspider(scrapy.spiders.spider):

name = "dmoz0" //爬蟲名稱,在每次呼叫爬蟲時需要

allowed_domains = ["www.tianqihoubao.com"] //注意這裡非常重要,它定義整個搜尋的範圍,既往下的任何搜尋都在這個網域名稱的範圍內,注:不是鏈結!

start_urls = [

""] //這一部分設定起始url

def parse(self, response): //scrapy框架預設傳入parse

sel = selector(response)

sites = sel.xpath('//dl')

url = ""

items =

for site in sites:

provence = site.xpath('dt/b/text()').extract()

print(provence)

citys = site.xpath('dd/a')

for city in citys:

name = city.xpath('text()').extract()

cityurl = city.xpath('@href').extract()

cl = url + cityurl[0]

item = cityitem()

item['name'] = name

item['url'] =url + cityurl[0]

items.append(item)

yield scrapy.request(cl, callback=self.parse_item) //yield生成請求,將新的url加入到爬取佇列中,cl為url,callback為新的爬取呼叫的parse名稱,這個專案新定義的為parse_item。

print("000")

def parse_item(self, response):

sell = selector(response)

sites = sell.xpath('//h2')

print("999")

第一階段練習

1 輸入乙個整數,把該整數分別按照八進位制 十進位制 十六進製制形式輸出 include stdio.h main 2 輸入乙個小數 整數部分3位 小數部分5位 把該小數分別按照以下格式輸出 小數部分4位寬度,整個數字8位寬度 小數部分3位寬度,整個數字9位寬度,空白部分使用0填充 include ...

第一階段 2015 12 2016 03

距離上一次寫部落格,大半年就過去了,這半年,都做了些什麼呢,生活又都有些什麼變化呢。2015的下半年是收穫的半年吧。第二,學ios的過程中結識了新的朋友,耳機哥,是很棒的一件事。第三,得到了乙份很美滿的愛情。最終在一起,還好沒錯過。第四,開始正視自己的不足,不再逃避,開始認真製作簡歷,並開始找工作,...

u boot第一階段

u boot 第一階段 位置 cpu arm920t start.s 流程分析 1.儲存一些全域性變數,用於啟動程式將 從flash拷貝到ram或其他使用。有一些變數的值是通過鏈結指令碼得到的,如 text base 位於board 2440 config.mk 中 bss start end 位於...