python網路爬蟲入門

2021-09-01 00:23:56 字數 1176 閱讀 4186

from urllib import request

fp=request.urlopen("")

content=fp.read()

fp.close()

這裡需要使用可以從html或者xml檔案中提取資料的python庫,beautiful soup

安裝該庫:

pip3 install beautifulsoup4
from bs4 import beautifulsoup

soup = beautifulsoup(html)

for x in soup.findall(name='a'): # 找出所有的a標籤

print('attrs:',a.attrs) # 輸出a標籤的屬性

#利用正則,找出所有id=link數字 標籤

for a in soup.findall(attrs=)

print(a)

可以寫入檔案,也可以做進一步處理,例如清洗

示例**如下:

from bs4 import beautifulsoup

from urllib import request

import re

import chardet

import sys

import io

#改變標準輸出的預設編碼

fp=request.urlopen("")

html=fp.read()

fp.close()

# 判斷編碼方式

det = chardet.detect(html)

# 使用該頁面的編碼方式

soup = beautifulsoup(html.decode(det['encoding']))

# 找出屬性為href=http或者href=https開頭的標籤

for tag in soup.findall(attrs=):

print(tag)

with open(r'c:\users\van\desktop\test.csv', 'a+') as file:

content = tag.attrs['href'] + '\n'

file.write(content) #寫入檔案

Python網路爬蟲入門(四)

beautifulsoup庫 from bs4 import beautifulsoup html soup beautifulsoup html,lxml 列印所有的tr標籤 trs soup.find all tr for tr in trs print tr 獲取第二個tr標籤 tr soup...

python網路爬蟲入門(二)

一 python爬取10頁250條資料中的所有 書單 模組案例方法一 encoding utf 8 import requests from bs4 import beautifulsoup i 25 while i 225 i i 25 c str i resp requests.get c so...

Python網路爬蟲入門介紹

我們最常見的就是post和get請求,學習完這兩個模組就可以爬去大部分網頁了。我們所有的高階爬蟲都是基於基本的請求傳送的,因此理解和熟練掌握這些基本的技能是尤為重要的。下面列舉常見的傳送請求的方式 利用requests和urllib傳送get請求 利用requests和urllib傳送post請求 ...