爬蟲原理篇流程方法概述

2021-08-27 23:47:59 字數 874 閱讀 2117

1.發起請求,通過http庫向目標站點發起請求,及傳送乙個request,可以包含headers等資訊

3.解析內容,若得到html,則使用正則,bs4等進行解析,若是json,直接轉換為json物件解析,若是二進位制資料,可以儲存下來

4.儲存資料,可以儲存為文字,至資料庫,或特定檔案

1.請求方式:

post:放在request中的form data裡,也可以使用ajax請求資料

其他方式不常用

2.請求的url

3.瀏覽器請求頭request headers

4.請求體

1.響應狀態,如200成功,301跳轉,404找不到,502伺服器錯誤

2.響應頭,內容型別,長度,伺服器資訊,設定cookie等

3.響應體,最主要的部分,包含了請求資源的內容,如html,,二進位制資料等

1.網頁文字,如html文件,json格式的文字

3.其他,只要是能請求到的,都能獲取

1.直接處理,返回簡單的字串

2.json格式解析

3.正規表示式

4.beautifulsoup庫解析,常用

5.pyquery

6.xpath

1.分析ajax請求,如果是簡單的,則能通過xhr選項卡直接找到請求的返回結果,通過解析json獲得

2.若是js加密解密渲染的,則需要使用selenium等庫呼叫瀏覽器驅動真實模擬訪問,得到的也是渲染之後的結果,對此結果進行抓取

3.splash庫,也是解決js渲染的

4.pyv8,ghost.py等

1.純文字,json等

2.關係型資料庫,mysql,oracle

3.非關係型資料庫,mongodb,redis等key-value形式

倒車雷達原理篇

往後倒一點,再往後,打方向盤,打多了,回一點再倒,好,停!相信一般的車主在停車場泊位時,都會遇到車輛保管員的 熱情招呼 車技純熟的倒 也與人工提示配合默契 車技一般 方向感較差的,就經常使負責指揮的那位人士高度緊張,脾氣急躁的還少不了擠兌車主幾句。可是,並不是所有車主都有幸得到 人工倒車指引,比如說...

iOS知識原理篇

weak策略表明該屬性定義了一種 非擁有關係 nonowning relationship 為這種屬性設定新值時,設定方法既不保留新值,也不釋放舊值。此特質同assign類似 然而在屬性所指的物件遭到摧毀時,屬性值也會清空 nil out runtime對註冊的類,會進行布局,會將 weak 物件放...

MongoDB分片原理篇

mongodb目前3大核心優勢 靈活模式 高可用性 可擴充套件性 通過json文件來實現靈活模式,通過複製集來保證高可用,通過sharded cluster來保證可擴充套件性。何時使用分片技術 儲存容量需求超出單機磁碟容量 活躍的資料集超出單機記憶體容量,導致很多請求都要從磁碟讀取資料,影響效能 寫...