Python 網路爬蟲

2021-08-01 09:57:46 字數 1306 閱讀 9990

python在設計上堅持了清晰劃一的風格,這使得python成為一門易讀、易維護,並且被大量使用者所歡迎的、用途廣泛的語言。學習python也有一段時間了,接下來做一下簡單的爬蟲程式,用來獲取一些網頁上的資料:

網頁圖:

爬取的資料:

實現**:

#coding=utf-8

import urllib.request

import re

class reptile(object):

def start(self):

# 爬取頁面總數

pagecount = 10

# 頁碼

i = 1

while i <= pagecount:

url = ""%i

f = urllib.request.request(url,headers=send_headers)

r = urllib.request.urlopen(f)

# 讀取並轉碼

html = r.read().decode("utf-8")

print("開始爬取第%d頁"%i)

self.doinfo(html)

print("爬取完畢")

i+=1

def doinfo(self, html):

str_ = str(html)

pattern = re.compile(r')', re.s)

list = pattern.findall(str_)

for temp in list:

self.writetofile(temp[0])

def writetofile(self,content):

file = open("test.txt","a",encoding="utf-8")

file.write(content)

file.write("\n\n")

file.close()

if __name__ == "__main__":

reptile = reptile()

reptile.start()

輸出結果:

Python網路爬蟲

找到url,也就是相當於入口,找到你要爬取的鏈結,獲取整個頁面資料 使用正規表示式,匹配到你想要爬取的內容,這裡使用的主要是正規表示式和一些常用的開源庫 最後一步就是寫入文字以及儲存問題了,如文字檔案 資料庫 coding utf 8 是用來指定檔案編碼為utf 8 from urllib impo...

python網路爬蟲

這篇部落格簡單的實現了乙個網路爬蟲指令碼,所謂網路爬蟲就是從 某乙個頁面 通常是首頁 開始,讀取網頁的內容,找到在網頁中的其它鏈結位址,然後通過這些鏈結位址尋找下乙個網頁,這樣一直迴圈下去,直到把這個 所有的網頁都抓取完為止。下面就是乙個簡單地網路爬蟲程式 note 這個命令的意思是,從爬去尋找關鍵...

python網路爬蟲

前言去掉所有標籤 dr re.compile r re.s dd dr.sub jiner 任意內容 可以匹配多位數字 可以匹配用逗號隔開的數字 可以匹配一位的數字 可以匹配帶小數點的數字 匹配空白符 匹配最後兩位 re.search 0 9 0 9 0 9 s.dd 當然,爬蟲還有乙個很關鍵的就通...