爬蟲的一般步驟

2022-07-27 16:54:15 字數 540 閱讀 1301

希望下次寫**的時候可以嚴格按照這個步驟進行除錯,寫可維護的**

1. 建立乙個專案

scrapy startproject demo

1. 根據需要設計字段

items.py

2. 資料提取 spiders.py

1)針對沒有ban且沒有動態資料的**

無需設定相應得策略:  設定useragentmiddleware即可

2) 針對沒有ban有動態資料的**

在1的基礎上,設定**ip池(變ip採集),動態資料獲取可以根據瀏覽器響應的方式發請求

3) 針對有ban和有動態資料的**

在1的基礎上,設定**ip池,設定cookies池,使用selenium的plantomjs外掛程式

3. 在簡單(頁面解析)的問題上,盡量不要花太多的時間!!!

4. 能使用url請求的盡量不要是用selenium外掛程式  

self.parse

self.parse_cat

self.parse_two

self.parse_three

SEO一般步驟

seo並不是簡單的幾個秘訣或幾個建議,而是一項需要足夠耐心和細緻的腦力勞動。大體上,seo包括六個環節 2 架構分析 結構符合搜尋引擎的爬蟲喜好則有利於seo。架構分析包括 剔除 架構不良設計 實現樹狀目錄結構 導航與鏈結優化。3 目錄和頁面優化 seo不止是讓 首頁在搜尋引擎有好的排名,更重要的是...

jdbc的一般步驟

1.匯入jdbc驅動jar 2.註冊jdbc驅動 引數 驅動程式類名 class.forname 驅動程式類名 3.獲得connection物件 conn.getstatement 方法建立物件 用於執行sql語句 execute sql 執行任何sql,常用執行ddl executeupdate ...

演算法分析一般步驟

很多程式設計師都愛犯的乙個毛病,就是剛開始動手寫 就想找到最優解,對那些已經被人解決過的問題,還可以通過網路獲取最優化的解決方案,當進入乙個全新的領域,這種想畢其功於一役的想法會限制人的能力,推遲專案進度。更一般的做法是 1 先分析問題,找到乙個可行的方案 2 將方案落地 3 思考當問題規模增大乙個...