寒假大資料學習筆記九

2022-06-08 14:06:08 字數 942 閱讀 8888

2、建立scrapy專案

這是很麻煩的一步,因為pycharm沒法建立scrapy專案,所以無論是windows還是linux都需要使用命令建立,可以使用命令scrapy檢視所有的scrapy可使用命令。

scrapy genspider [專案名] [**網域名稱] ,切換到想建立專案的的位置,輸入以上命令即可。這裡我推薦使用pycharm的terminal,因為它的預設顯示的路徑就是在你目前專案的路徑下,所以直接用terminal直接輸入命令即可。**網域名稱直接輸入www.後面的就可以了,例如填寫baidu.com即可,因為scrapy會負責填寫上http之類的字首協議。**網域名稱起到的作用是限制範圍,將爬蟲限制到想要爬取的網域名稱之下,不至於出現爬的爬的就跑丟的情況。

3、建立爬蟲

進入建立的scrapy專案中,輸入 scrapy crawl [爬蟲名] ,就可以得到如下python檔案:

#

-*- coding: utf-8 -*-

import

scrapy

class

gzbdspider(scrapy.spider):

name = '

gzbd

'allowed_domains = ['

nhc.gov.cn']

start_urls = ['

']defparse(self, response):

pass

name是剛才輸入的爬蟲名字,名字必須唯一,因為名字是scrapy識別爬蟲的唯一**,避免出現同一scrapy專案下scrapy無法識別使用者想要執行哪個爬蟲的尷尬問題。同時,上述**自己打也是沒有問題的,不僅如此,連同整個scrapy專案也是一樣,手動建立資料夾,檔案也是可以的,只要規格和名字與用命令建立的一樣就行。

寒假大資料學習筆記十一

今天從山西衛健委官網上爬取新型冠狀病毒疫情有關內容的資料。到發部落格為止我只做了一半,只是將相關文字爬取下來,還沒有經過處理。那麼主要說一說我碰到的問題吧。主要就是爬取網頁的文字內容時受到網頁標籤的影響,難以規範地取得我想要的內容,影響包括但不限於各種稀奇古怪的位置上出現的換行符 空格 製表符。同時...

寒假大資料學習筆記七

今天由於某些私人原因,學習時間比較少,學習內容為基礎的urllib error。1 異常處理 一般常用的異常有兩個 httperror和urlerror。urlerror一般出現的情況是沒有網路連線 伺服器連線失敗 找不到指定的伺服器。例子如下 1 try 2 url 3 response requ...

寒假大資料學習筆記五

今天學習內容為正規表示式,這一塊我一整天竟然沒有學完。在一開始爬取網頁匹配有用的字串時,我用的是find方法,如下 和 jpg 來鎖定鏈結,這樣做十分不方便,因為很難保證得到的是想要的鏈結,一旦有非鏈結匹配成功,同樣也會被扒下來,這樣會對清洗資料造成很大的麻煩。而正規表示式,無疑會方便許多。但正規表...