Python 網路爬蟲之BeautifulSoup

2021-08-01 10:42:21 字數 1254 閱讀 8240

在上一節記錄了如何使用urllib進行網路爬蟲,並將資料儲存。但是我當時是使用的正規表示式進行的資料過濾,有些不全面。接下來我將記錄一種更加方便的解析資料的操作–beautifulsoup:

安裝beautifulsoup4

導包

import urllib.request

from bs4 import beautifulsoup

**實現
#coding:utf-8

import urllib.request

from bs4 import beautifulsoup

class reptile(object):

def start(self):

pagecount = 10;

currentpage = 1;

while currentpage <= pagecount:

url = ""%currentpage

send_headers =

print("開始爬取第%d頁的資料..." % currentpage)

file = urllib.request.request(url,headers=send_headers)

html = urllib.request.urlopen(file).read().decode("utf-8")

info = beautifulsoup(html,"html.parser")

# 匹配所有的標籤

contents = info.find_all("dd", )

self.writetofile(contents)

print("爬取第%d頁的資料完畢"%currentpage)

currentpage+=1

def writetofile(self,list):

for temp in list:

file = open("段子.txt","a")

# 獲取標籤的內容

file.write(temp.get_text())

file.write("\n\n")

file.close()

if __name__ == "__main__":

reptile = reptile()

reptile.start()

Python之網路爬蟲(1)

將 中所有的出版社資訊都爬取出來。如下 可以看到,網頁中有許多的出版社。下面我們用 將所有出版社的名字爬取出來,並儲存在檔案中。import urllib.request import re url data urllib.request.urlopen url read data data.dec...

Python之網路爬蟲(4)

使用 伺服器進行資訊爬取,可以很好的解決ip限制的問題。import urllib.request def use proxy url,proxy addr proxy urllib.request.proxyhandler 由於urllib.request.urlopen不支援很多高階網頁,因此使...

python 網路爬蟲之beautifulsoup

beautifulsoup 用來提取請求返回資訊 安裝 pip install beautifulsoup4 平行遍歷,發生在同乙個父節點下的各節點間 標籤的平行遍歷的結果不一定是標籤 import requests from bs4 import beautifulsoup import re u...