Scrapy爬取遇到的一點點問題

2022-08-20 05:06:07 字數 1049 閱讀 7463

學了大概乙個月scrapy,自己寫了些東東,遇到很多問題,這幾天心情也不大好,小媳婦人也不舒服,休假了,自己研究了很久,有些眉目了

利用scrapy 框架爬取慕課網的一些資訊

步驟一:新建專案

scrapy startproject muke

進入muke 

scrapy genspider mukewang imooc.com  #mukewang 為爬蟲名,imooc.com 是網域名稱,爬蟲爬取的範圍

步驟二:編寫item,定義需要爬取的字段,此處只定義兩個欄位吧(初學)

步驟三:編寫spider主題,暫時先只爬取title,有些名詞用的比較low,莫怪

以上基本的東西就寫完了

步驟四:執行爬蟲 scrapy crwal mukewang 檢視結果 爬取結果較多就不一一枚舉了

期間遇到一點點問題問題,就是我的爬取結果只限制在第一頁,收到乙個deubg資訊:

2018-09-27 12:07:09 [scrapy.spidermiddlewares.offsite] debug: filtered offsite request to 'www.imooc.com':

2018-09-27 12:07:09 [scrapy.core.engine] info: closing spider (finished)

2018-09-27 12:07:09 [scrapy.statscollectors] info: dumping scrapy stats:

原來是我的allowed_domains出現問題 將allowed_domains=['www.imooc.com/']改為allowed_domains=['imooc.com']即可實現全部爬取

本次算是初學爬蟲,自己寫了點東西,但是遠遠沒有達到要求,比如儲存到資料庫,路漫漫其修遠兮,吾將上下而求索!!

深度學習的一點點一點點知識

我們手裡有大量的x和y,求權重訓練的是權重資料樣本 xwy 身高0體重0 血型0.3 腳指頭0.8 一組x計算出對應的乙個y 計算過程是w 下面的就是最基礎的公式 我們已知資料是大量的x和y 希望通過 西塔 來獲得w 我們的學習才剛剛開始,首先需要理解的是與門 x1x2y0 0001 0100 11...

一點點感想

寫在這喧囂與寂寞的世界 今天我與chen在風初停的早上跑去借書,借了安妮的 清醒記 兩本三毛的書和一本yilan的旅行與味蕾的書。從圖書館出來,風似乎有些冷,想到又要到那陰冷的梅花館坐在又涼又硬的椅子上上一節乏味的數學課我們便都不約而同的想到了逃課。帶著心裡的負罪感我們躲進八食取暖。無意中我們嘗到了...

一點點感悟

這兩天一直在努力的調整狀態,考慮了很多,也想通了很多,因為看開了,所以狀態也好了很多。明白了,一件事情的兩面性,壞的一面會使自己痛苦不堪,好的一面會使自己心情愉快。看了一篇文章,感觸很大,裡面有很多啟發自己的語句。二十幾歲的人,除了愛情之外,還需要有一項能使自己生活的本領 要把自己的感觸 心情和生活...