10 30簡單爬蟲 靜態網頁爬取

2021-10-10 03:12:06 字數 1414 閱讀 2914

#爬取讀者文章

#網頁資料分為 動態網頁資料和靜態網頁資料,兩種網頁資料的爬取是不一樣的

#爬蟲思路- 當前頁面的網頁源**-其中獲取需要的資訊

import requests

#requests 是乙個**版的瀏覽器

from bs4 import beautifulsoup

#資料的提取/解析 ,三大解析工具之一(萬能的re)最簡單的 bs4

#1.目標路徑

url=

''#2. 傳送請求

resp=requests.get(url)

#模組的get方法

print

(resp)

#表示二者間的通訊正常的

html=resp.content.decode(

'gbk'

)# resp.text 返回文字格式

# resp.content 二進位制格式

print

(resp.content.decode(

'gbk'))

#獲取網頁源**後,提取想要的內容(專業術語-解析網頁或者 資料提取)

#3.解析網頁、資料提取

soup=beautifulsoup(html,

'lxml'

)#lxml是乙個解析庫

print

(soup)

#注意 print函式也有自己的編碼格式,若不相同,可以使用專門語句修改輸出函式的編碼格式

# 修改print函式的編碼格式語句 ,需要用的兩個內建庫 io和sys

#soup的兩個方法

#find--找第一條滿足條件的內容 返回str

#find_all-滿足條件的所有內容 返回list

soup.find(

'li'

)soup.find(

'div'

,class_=

"artview"

) soup.find(

'div'

,class_=

"artview"

).find(

'h1'

)修養是乙個人最體面的外衣<

/h1>

soup.find(

'div'

,class_=

"artview"

).find(

'h1'

).string

'修養是乙個人最體面的外衣'

text=soup.find(

'div'

,class_=

"artview"

).find(

'h1'

).get_text(

)print

(text)

返回值:

修養是乙個人最體面的外衣

python爬蟲 爬取靜態網頁

爬蟲新手剛入門,萌新練手交流作 import requests import bs4 from bs4 import beautifulsoup 偽裝瀏覽器,獲取源 def gethtml url headers 偽裝瀏覽器 response requests.get url,headers hea...

Python 爬蟲爬取網頁

工具 python 2.7 import urllib import urllib2 defgetpage url 爬去網頁的方法 request urllib.request url 訪問網頁 reponse urllib2.urlopen request 返回網頁 return response...

Python3爬蟲 01 簡單網頁爬取

宇宙黑客王磊磊 python3爬蟲 簡單網頁的獲取 第乙個簡單的示例 爬去hades 官網首頁 import sys import urllib.request print sys.getdefaultencoding url 請求request urllib.request.request url...