一 Python爬蟲 認識爬蟲

2022-03-26 15:32:59 字數 681 閱讀 2468

爬蟲是什麼:

爬取網際網路上的資訊

資料探勘->資料清洗(得到有效的資訊)

爬蟲分類:

抓取網頁 -> 資料儲存 -> 預處理 -> 提供檢索,**排名

前端:網頁展現        

中間層:資料處理       

資料庫:資料儲存      

伺服器(響應)客戶端(請求)           

基本格式:scheme://host[:port#]/path/.../[?query-string][#anchor]

scheme:協議

port#:伺服器的埠(如果是走協議預設埠,預設埠80)

query-string:引數,傳送給http伺服器的資料

anchor:錨(跳轉到網頁的指定錨點位置)

get是從伺服器上獲取資料,post是向伺服器傳輸資料,post更加安全

post請求:引數在請求體當中,訊息長度沒有限制而且以隱式的方式進行傳送,通常用來向http伺服器提交量比較大的資料,請求引數包含在"content-type"訊息頭里,指明該訊息體的**型別和編碼

按下f12,進入開發者模式;

python爬蟲入門初步認識

python簡單的爬蟲技術,這裡我用的是python3.x版面進行研究,主要對兩個python庫進行操作。在此之前你需要安裝python3.x環境 1 urllib python3.x官方基礎模組 2 beautifulsoup4 python3.x第三方模組 使用前需要安裝beautifulsou...

python爬蟲甲殼 python爬蟲(一)

一 http協議 1.基本概念 http,hypertext transfer transfer peotocol,超文字傳輸協議 http是乙個基於 請求與響應 模式的 無狀態的應用層協議 http協議採用url作為定位網路資源的標識,url格式如下 port 埠號,預設埠為80 path 請求資...

Python爬蟲(一) 了解爬蟲

爬蟲即網路爬蟲,即將網上的資源抓取下來。比如在抓取乙個網頁,在這個網中發現一條道路,這個道路就是指向網頁的超連結那就可以抓到該網的資源 瀏覽網頁的過程其實就是使用者輸入 之後,經過dns伺服器,找到伺服器主機,向伺服器發出乙個請求,伺服器經過解析之後,傳送給使用者的瀏覽器html,js,css等檔案...