網路爬蟲基本聯絡

2022-06-01 17:48:14 字數 1185 閱讀 3842

0.可以新建乙個用於練習的html檔案,在瀏覽器中開啟。

1.利用requests.get(url)獲取網頁頁面的html檔案

import requests

newsurl=''

res = requests.get(newsurl) #返回response物件

res.encoding='utf-8'

2.利用beautifulsoup的html解析器,生成結構樹

from bs4 import beautifulsoup

soup = beautifulsoup(res.text,'html.parser')

3.找出特定標籤的html元素

soup.p #標籤名,返回第乙個

soup.head

soup.p.name #字串

soup.p. attrs #字典,標籤的所有屬性

soup.p. contents # 列表,所有子標籤

soup.p.text #字串

soup.p.string

soup.select(『li')

4.取得含有特定css屬性的元素

soup.select('#p1node')

soup.select('.news-list-title')

5.練習:

取出h1標籤的文字

取出a標籤的鏈結

取出所有li標籤的所有內容

取出第2個li標籤的a標籤的第3個div標籤的屬性

import requests

res = requests.get('')

res.encoding = 'utf-8'

from bs4 import beautifulsoup

soup = beautifulsoup(res.text, 'html.parser')

for h1 in soup.find_all('h1'):

print(h1.text)

for a in soup.find_all('a'):

print(a.attrs.get('href'))

for li in soup.find_all('li'):

print(li.contents)

print(soup.find_all('li')[8].a.find_all('div')[2].attrs)

網路爬蟲基本練習

0.可以新建乙個用於練習的html檔案,在瀏覽器中開啟。1.利用requests.get url 獲取網頁頁面的html檔案 import requests newsurl res requests.get newsurl 返回response物件 res.encoding utf 8 2.利用be...

mysql概念模型中的3種基本聯絡 資料庫自測題

一 單項選擇題 在每小題的四個備選答案中選出乙個正確答案,並將其號碼填在題幹的括號內。每小題1分,共30分 1.單個使用者使用的資料檢視的描述稱為 a.外模式 b.概念模式 c.內模式 d.儲存模式 2.下列聚合函式中不忽略空值 null 的是 a.sum 列名 b.max 列名 c.count d...

網路爬蟲(requests基本使用)

get請求型別 總覽 import requests url www.com params headers verif true proxies auth username password timeout 10r requests.get url,params params,headers hea...