python爬蟲(第一天)

2021-08-29 15:49:22 字數 841 閱讀 5510

網易雲課堂的

丘祐瑋綜述:如何爬網頁資料

使用chorme,右鍵—>檢查

pip 安裝 requests

pip 安裝 beautifulsoup4

pip 安裝 jupyter

執行jupyter notebook

import requests

res = requests.get('**')

res.encoding = 'utf-8' #編碼方式

print(res.text)

列印出非結構化的網頁資料

from bs4 import beautifulsoup

html_sample = res.text

soup = beautifulsoup(html_sample,'html.parser')

print(soup.text)

beautifulsoup.select('標籤')#獲得含有此標籤的列表

提取css屬性的元素,id前面加#,class前面加.

alink = soup.select('#title')

blink = soup.select('.link')

例項import requests

from bs4 import beautifulsoup

res = requests.get('')

res.encoding = 'utf-8'

soup = beautifulsoup(res.text,'html.parser')

#print(soup)

通過以上方式得到鏈結和文字迴圈使用就可以在網頁提取一定量的文字。

python 爬蟲第一天

1.爬蟲框架安裝 如果直接用requests selenium 等庫寫爬蟲,爬取量不是太大,速度要求不高是可以的 我們可以用爬蟲框架 pyspider 和scrapy pyspider 是國人binux編寫的強大網路爬蟲框架,帶有強大的webui 指令碼編輯器 任務 專案管理器及結果處理器,結果支援...

python爬蟲學習第一天

今天開始學習python網路爬蟲,寫個部落格作為筆記以及自己的學習過程以監督自己。今天學習了urllib這個python包的一部分內容,主要是urllib.request 內容簡記 urllib.request.urlopen 詳解 利用以上最基本的urlopen 方法,我們可以完成最基本的簡單網頁...

學python爬蟲第一天

win10系統 小白一枚 第一次學習寫部落格 1.get是預設的http請求方法 2.post方法主要是提交表單 3.get引數暴露在url中 4.get相對post不安全 可以用下面的語句show一下,確定是否安裝完全 定義請求的url url 發起get請求 res requests.get u...