Python用urlib爬蟲基礎及格式入門

2021-10-09 06:19:51 字數 879 閱讀 5600

初級的話,記住四個步驟:

之後會逐步加深難度並更新的。

需要爬取的網頁位址url

建立headers 請求頭headers

建立響應體response

獲取的資料html

基本列子:

import urllib

from urllib import request

# 第一步 "user-agent" 可以網上搜。一大堆

headers =

url =

""# 第二步

# 第三步

# 傳入上述的 url 與 headers

rep = urllib.request.request(url=url,headers=headers)

# 第四步

# 建立網頁物件。

res = urllib.request.urlopen(rep)

# print(res.read()) # 二進位制型別

print

(res.read(

).decode(

'utf-8'))

# 轉成字串,列印網頁資料

# print(res.info()) # 響應的資訊。

之後的就是處理資料了,獲取自己想要的

前期入門最主要的是記住這幾個步驟,勤加練習,並且應當熟知資料處理。

python利用urlib2進行簡單爬蟲例項

coding utf 8 import urllib import urllib2 import re import thread import time 糗事百科爬蟲練習 糗事百科爬蟲類 class qsbk 初始化方法,定義一些變數 def init self self.pageindex 1 ...

python3 爬蟲入門(一)urlib庫基本使用

1.什麼是urlib?urllib是python內建的http請求庫 包括以下模組 urllib.request 請求模組 urllib.error 異常處理模組 urllib.parse url解析模組 urllib.robotparser robots.txt解析模組 2.關於urllib.re...

python 爬蟲selenium 安裝與基本使用

這裡先來介紹一下爬蟲瀏覽器,普通爬蟲獲取用抓包的方式獲取要獲取資訊的api,ajax,json,js等 通過請求 來獲取相對應資料。然而,總有一些沒辦法或者分析比較困難的,這個時候就可以使用模擬瀏覽器大發神威了。再來介紹一下爬蟲瀏覽器的種類有 chrome,firefox,ie,phantomjs ...