Python獲取html頁內容

2022-09-14 04:30:14 字數 1152 閱讀 3461

乙個簡單的python獲取html頁面

版本說明:

testing system os : windows 7

python :  3.7.2 (tags/v3.7.2:9a3ffc0492, dec 23 2018, 22:20:52) [msc v.1916 32 bit (intel)] on win32

安裝模組:

1.requests模組安裝

c:\users\administrator> pip install requests -i
看到successfully 就是安裝成功了,引數-i是臨時指定去那個**找模組,國內也有其他源可以選擇

2. lxml模組安裝

c:\users\administrator>pip install lxml -i
看到successfully 就是安裝成功了,引數-i是臨時指定去那個**找模組,國內也有其他源可以選擇

獲取html內容:

## 引入模組

> import requests

> from lxml import etree

## 開啟baidu.com**

> r = requests.get('')

## 漢字顯示亂碼

> print(r.text)

## 檢視當前編碼

> r.encoding

## 設定編碼utf-8 ,因為網頁是utf-8,編碼不對顯示漢字會亂碼

> r.encondig = 'utf-8'

## 重新列印漢字就正常顯示了

> print(r.text)

漢字顯示亂碼

設定編碼後漢字顯示正常

參考:

Python 獲取 html 網頁內容

一篇基礎文章,不講爬蟲。單純的獲取標籤元素的值 操作網頁。用到了 selenium 包。這個包需要給瀏覽器安裝驅動,不同的瀏覽器需要的驅動不同。環境搭建參考 需要注意,windows版本的驅動檔案.exe需要放在python.exe所在的目錄下,環境變數才能生效 別問我為什麼,我也不知道 打 狐瀏覽...

獲取網頁html內容

獲取網頁html內容 今天寫個簡單的程式,根據指定的 url 來抓取相應的網頁內容,然後存入本地檔案。這個程式會涉及到網路請求和檔案操作等知識點,下面是實現 二 讀取資源資料 body byte body,err ioutil.readall res.body 關閉資源流 res.body.clos...

python3爬蟲獲取html內容及各屬性值

今天用到beautifulsoup解析爬下來的網頁資料 首先匯入包from bs4 import beautifulsoup 然後可以利用urllib請求資料 記得要導包 import urllib.request 然後呼叫urlopen,讀取資料 f urllib.request.urlopen ...