python製作乙個簡單網路爬蟲

2021-09-17 08:34:52 字數 994 閱讀 3354

這章我們用python標準庫urllib2來實現簡單的網路爬蟲(本章很簡單適合小白,不喜勿噴)

一、urllib2定義了以下方法:

urllib2.urlopen( url, data, timeout )

data引數:post資料提交(例如:賬號密碼傳送給伺服器判斷登陸)

url引數:網頁url,可接受request物件。

返回乙個類似於open檔案物件 從中讀取網頁資料

urllib2.request( url, data=none, headers={} )

注意r大寫

data為none時,傳送的是get請求,反之post

二、urllib2小案例

python製作乙個簡單網路爬蟲

import urllib

import urllib2

import re

if __name__ == '__main__':

url = ""

res = urllib.urlopen(url).read()

# 編譯為pattern模式 匹配 取出列表中第乙個資料

r = re.compile(r"download the latest version for windows[\s\s]+?[\

s\s]+?").findall(res)[0]

# 進行資料清洗

li = re.compile(r'a class="button" href="(.*?)">(.*?)<').findall(r)

# 進行輸出

py3x = li[0]

py2x = li[1]

print py3x[1]+":"+py3x[0]+"\n"+py2x[1]+":"+py2x[0]

獲得以下資料:

download python 3.6.0:

download python 2.7.13:

以上就是乙個簡單的網路爬蟲,希望對你有所幫助。

python 使用python做乙個簡單爬蟲

爬蟲的步驟如下 1.獲取資料 2.篩選資料 3.儲存資料 4.顯示資料 在這裡我們主要使用urllib2庫來對網頁進行爬取,本次我們爬取的參考 是 我們可以觀察內容 發現正文的內容都在這個標籤內,所以我們可以通過正則篩選出內容 正則內容如下 pattern re.compile r re.s 然後再...

製作乙個網路通訊類(一)

tcplistener類提供一些簡單方法,用於在同步阻塞模式下偵聽和接受傳入連線請求。tcpclient 類提供了一些簡單的方法,用於在同步阻塞模式下通過網路來連線 傳送和接收流資料。每個ctcptalk物件中包含乙個用於監聽的tcplistener部件,乙個用於傳輸資料的tcpclient部件,和...

利用python語言製作乙個簡單的飛機大戰小遊戲

第二步驟 當飛機大戰所需要的素材包準備完成後,下面我們開始對玩家操控的飛機的程式進行編寫 程式如下 import pygame import random import time class regou definit self,plane,screen self.screen screen sel...