我的第乙個爬蟲日誌

2021-07-12 05:41:54 字數 1401 閱讀 6156

剛剛開始學習爬蟲,很多東西不懂,還望前輩們多多指教。

總結流程:

1、匯入相應的包

1)傳送**(多頁在此不傳送頁碼,新編函式迴圈傳入新的頁碼)

2、構建函式

1)**傳送請求

2)伺服器的響應

3)讀取**編碼資訊

3、編寫正規表示式提取所需內容,括號內容具有唯一性

import urllib

import urllib2

import re

#匯入需要的包

url = ''

def getpic(url):

req = urllib2.request(url)

response = urllib2.urlopen(req)

html = response.read().decode('utf-8')

#注意正則需要括號表示分組,我們所需要的內容前後用括號隔開

x = 0#從0開始命名

我的第乙個爬蟲程式

最近開始迷上python了,當然,最讓我著迷的還是它的 風格,用一句話形容 乾淨利索脆。由於我有一些vb基礎,現在學python感覺特別的輕鬆。必須要強調一句 興趣是最好的老師。既然學寫爬蟲,先給自己定乙個小目標 爬一本 好了。從 縱橫中文網 裡找了部章節少的 神魔武帝 練手,別看就簡簡單單爬取一部...

第乙個爬蟲

很多人學習python的目的就是為了學習能夠實現爬蟲的功能,這裡,我使用了scrapy框架來實現了乙個簡單的爬蟲功能,這裡我簡單的介紹一下scrapy專案的建立,和執行。1,第一步是安裝scrapy,我相信到了這一步,大多數人都已經會安裝第三方庫檔案了,這裡主要是使用命令pip install sc...

第乙個爬蟲

一 程式測試 二 開啟360網頁 三 html計算 四 中國大學排名 爬取年費2018 五 函式介紹總結 1.requests 庫的網頁請求函式 函式 說明 get url timeout n 對應http的get方式,設定請求超時時間為n秒 post url,data 對應http的post方式,...