Python爬蟲 scrapy輔助功能實用函式

2021-08-28 13:56:11 字數 1486 閱讀 5831

scrapy輔助功能實用函式:

get_response: 獲得scrapy.htmlresponse物件, 在不新建scrapy專案工程的情況下,使用scrapy的一些函式做測試

extract_links: 解析出所有符合條件的鏈結

以拉勾首頁為例,獲取拉勾首頁所有職位鏈結,進一步可以單獨解析這些鏈結,獲取職位的詳情資訊

獲得scrapy.htmlresponse物件, 在不新建scrapy專案工程的情況下,

使用scrapy的一些函式做測試

:param url: 鏈結

:return: scrapy響應物件

"""headers =

response = requests.get(url, headers=headers)

return htmlresponse(url=url, body=response.content)

defextract_links

(response, allow, allow_domains)

:"""

解析所有符合要求的鏈結, 每次都解析不出來text屬性,所以直接封裝,可以做一些特定擴充套件

:param response: scrapy響應

:param allow: 鏈結限定元組

:param allow_domains: 網域名稱限定元組

:return: )}

"""link_extractor = linkextractor(allow=allow, allow_domains=allow_domains)

links = link_extractor.extract_links(response)

return

(link.url for link in links)

if __name__ ==

'__main__'

: url =

""response = get_response(url)

links = extract_links(response,

("jobs/\d+.html"),

("lagou.com",)

)for link in links:

print

(link)

""" jobs/5185130.html

jobs/4200613.html

jobs/5039140.html

jobs/5174337.html

jobs/5185128.html

jobs/5185127.html

..."""

Python爬蟲 scrapy框架

開源的,對平台的爬蟲框架 舊版本 需要預先定義所需欄位 class myitem scrapy.item url scrapy.field 再將所需欄位填充 class myspier scrapy.spider defparse self,response return sudo apt inst...

python爬蟲scrapy框架

安裝 pip install scrapy startproject 建立乙個新專案 genspider 根據模板生成乙個新爬蟲 crawl 執行爬蟲 shell 啟動互動式抓取控制台 進入專案目錄 scrapy startproject crawlertest project name cd cr...

Python爬蟲 Scrapy基礎

依照順序安裝如下依賴庫,如下 wheel pip install wheel lxml pyopenssl twisted pywin32 220 scrapy pip install scrapy 安裝成功後,通過在cmd的指定路徑下輸入 scrapy startproject hello可以在當...