scrapy爬蟲獲取Ajax請求

2021-09-22 08:36:57 字數 1325 閱讀 1986

本次練習**為智聯招聘網,要先註冊登入。 傳送門

看到ajax:登入**–>f12–>network–>xhr–>f5–>preview

展開result,可以看到很多的招聘資料,這就是我們需要的。

現在開始寫**

一、建立scrapy專案。

scrapy startproject crawposition

二、使用pycharm來編輯**

open專案之後可以看到scrapy框架已經幫我們建立好一些py檔案

crawposition/

scrapy.cfg

crawposition/

__init__.py

items.py

pipelines.py

settings.py

spiders/

__init__.py

...

三、在spiders目錄下建立乙個 crawl.py爬蟲檔案 ,

class crawpositionpipeline(object):

def __init__(self):

self.file=open('ans.json','a',encoding='utf-8')

def process_item(self, item, spider):

lines=dict(item)

line=}

print(line)

self.file.write(str(line))

self.file.write('\n')

return item

def spider_closed(self,spider):

self.file.close()

bot_name = 'crawposition'

spider_modules = ['crawposition.spiders']

newspider_module = 'crawposition.spiders'

#這裡的crawpositionpipeline為pipelines.py檔案的class類名。300是優先順序

item_pipelines=

log_level='info'

robotstxt_obey = true

執行專案

scrapy crawl crawl

Python爬蟲 關於scrapy模組的請求頭

開發環境python2.7 scrapy 1.1.2 測試請求頭 瀏覽器請求頭大全 命令列執行,新建爬蟲 scrapy startproject myspider cd myspider scrapy genspider scrapy spider httpbin.org我們通過對 的請求,檢視本次...

使用爬蟲獲取ajax資料

簡單修改了一下url 可以獲取到前100條資料 from urllib import request import json class doubanmoviespide 豆瓣電影劇情片排行榜 def init self self.url self.headers defload page self...

scrapy爬蟲框架

作者經過幾周的python爬蟲實踐之後,深入學習了一下scrapy這個爬蟲框架,現將一些基本知識和 總結整理一下,以備後查。2.scrapy的命令列使用 這部分網上很多部落格都有總結,不需要背,理解會用主要的命令 startproject crawl fetch list genspider.即可,...