爬蟲學習(一)

2022-08-03 01:42:12 字數 642 閱讀 8542

url:統一資源定位符

聚焦爬蟲:根據特定的需求,從網上把資料去下來

爬蟲實現的思路:

網頁的特點:每個網頁有自己的url

網頁是由html組成的

網頁傳輸的時候使用http和https協議

爬取的思路:

使用乙個url

寫python**,模擬瀏覽器傳送http請求

解析資料,提取出來指定的資料,通過一定的規則來進行。

urllib庫

作用:是python用來模擬http請求的庫,他是python自帶的庫

urllib.request         模擬瀏覽器傳送求情

urllib.parse            處理url或是他們的引數

urllib.error             丟擲異常,用來處理傳送請求時候出現的異常

urllib.request.urlopen():           專門來處理url進行資料的讀取

response.read():以二進位制來進行資料的讀取

網上能碰到的編碼個是只有兩種

gbkutf8

二進位制轉化成為字串:decode()       相當於解碼

字串變為二進位制:encode()               相當於編碼

爬蟲學習(一)

def parse one page html pattern re.compile src re.s items re.findall pattern,html for item in items yield def write to file content with open result.t...

爬蟲學習(一)

為了從網際網路上批量獲取資料,研究了下spider,在此記錄一筆學習經歷。今天先了解下robots協議,也叫爬蟲協議,全稱是 網路爬蟲排除標準 robots exclusion protocol 通過robots協議告訴搜尋引擎哪些頁面可以抓取,哪些頁面不能抓取。我們可以自定義爬蟲所使用的agent...

python 爬蟲學習一

爬取目標 為aspx 使用到了 viewstate eventvalidation cookie來驗證。使用beautifulsoup來解析網頁內容。encoding utf 8 from bs4 import beautifulsoup import urllib import urllib2 d...