Python爬蟲學習 三 爬蟲的基本操作流程

2022-08-30 15:54:32 字數 701 閱讀 1216

一般我們使用python爬蟲都是希望實現一套完整的功能,如下:

1.爬蟲目標資料、資訊;

2.將資料或資訊存入資料庫中;

3.資料展示,即在web端進行顯示,並有自己的分析說明。

這次我先介紹第乙個功能中所需要實現的基本操作:

匯入爬蟲所需要的庫(如:urllib、urllib2、beautifulsoup、scrapy等)

新增data資訊:data為字典型別,可以新增name,password等一些登入所需資訊

定義headers:有些**會識別鏈結是否由瀏覽器發出的請求,需要定義headers用偽裝是瀏覽器所訪問的

如果在第三步中新增了data資訊,則需要對data進行轉編碼:urlencode(data)

讀取html原始碼:html=res.read()

解析html,一般常用的方法有兩種:¹ 正規表示式(根據提取規則擷取目標內容);² beautifulsoup(根據html標籤進行提取,如:……)

存入本地或者資料庫

python正規表示式學習請看這邊→|||python正規表示式學習

|||

Python爬蟲學習稿(三)

一 資料結構 我們必須知道,乙個網頁上存在許多鏈結,並且如果已經爬取過的頁面是不需要再重複進行爬取的,那麼爬蟲就需要判斷,這個頁面是否曾經被爬取過 頁面上的這些鏈結爬取的順序 解決問題一 python自從2.3後提供了一種名為集合 set 的資料結構,和數學上的集合一樣,支援交 並 差等運算,set...

Python爬蟲學習筆記(三)

抓取w 上的 把這些儲存到乙個資料夾中 import requests if name main url text 字串 content 二進位制 json 物件 response requests.get url content w 以文字的方式寫入 wb 以二進位制的方式寫入 建立資料夾 os....

python爬蟲學習 01爬蟲介紹

前戲 1.你是否在節假日出行高峰的時候,想快速搶購火車票成功 2.你是否在網上購物的時候,想快速且精準的定位到口碑質量最好的商品 什麼是爬蟲 通過編寫程式,模擬瀏覽器上網,然後讓其去網際網路上抓取資料的過程。爬蟲的價值 實際應用 就業 爬蟲究竟是合法還是違法的?如何在使用編寫爬蟲的過程中避免進入局子...