Scrapy 問題錦集(後邊繼續更新

2022-04-23 04:46:59 字數 939 閱讀 6907

1.這個問題要麼換3.6要麼改原始碼

2.robots.txt:

debug: forbidden by robots.txt:

這個檔案中規定了本站點允許的爬蟲機器爬取的範圍,因為預設scrapy遵守robot協議,所以會先請求這個檔案檢視自己的許可權,出錯是因為使用的爬蟲爬取內容違背這個robot.txt。所以只要讓爬蟲不遵守該協議就好了,具體做法是找到settings檔案裡的robotstxt_obey設定成false。

# obey robots.txt rules

robotstxt_obey = false

3.xpath的text()和extract()

extract()這個是獲取到標籤的所有資訊

text()則是將該標籤的的值獲取到,也就是》這裡的值<

4.403解決,settings下面用這個就行

5.json.loads和jumps的區別

json.dumps : dict轉成str

json.loads:str轉成dict

6.scrapy 列印頁面出現編碼不正確

print(html.decode('utf-8', 'ignore')) #這樣子是py3預設utf8 列印 不用utf-8列印就行
xpath 如何去掉換行和空格

normalize-space(//*[@class="entry-meta-hide-on-mobile"]/text())

translate():替換字元,產生新的字串

8.unknown command: crawl

這個是沒有進到專案根目錄

Scrapy 問題錦集(後邊繼續更新

1.這個問題要麼換3.6要麼改原始碼 2.robots.txt debug forbidden by robots.txt 這個檔案中規定了本站點允許的爬蟲機器爬取的範圍,因為預設scrapy遵守robot協議,所以會先請求這個檔案檢視自己的許可權,出錯是因為使用的爬蟲爬取內容違背這個robot.t...

iscsi問題錦集

1.iscsi 客戶端discovery伺服器端操作失敗 解決 先執行 o new操作 iscsiadm m node t iqn.2010 06.de.boerse go disklesstest p 100.20.56.2 3260 o new 再執行discovery 以及login等操作 2...

面試問題錦集

已取得offer 1.融先科技 2.浙江農信 3.華為 cloud bu 雲計算方向 經典c 筆試題目100例,接近實際,值得一看!c 面試題目,整理自牛客網 堆疊相關 虛函式,純虛函式,虛函式表。程序和執行緒的同步 雜湊表構造 紅黑樹和b樹區別 函式指標 什麼情況下會棧溢位 回答了個遞迴 題二 區...