python 資料採集入門

2021-08-07 20:40:41 字數 809 閱讀 4439

1.配置環境

安裝python,urllib,beautifulsoup4.

pip是python的安裝程式。

驗證安裝是否成功:

beautifulsoup4

安裝beautifulsoup4

linux:

sudo apt-get install python-bs4

mac:

sudo easy_install pip

pip install beautfulsoup4

windows

pip install beautfiulsoup4

pip3 install beautifulsoup4

1.urllib用法

輕鬆模擬瀏覽器

print(resp.read().decode("utf-8")) #嘗試一下print(resp),print(resp.read()),還有print(resp.read().decode('utf-8'))分別都是什麼樣子的。

1, 攜帶user-agent頭

req=request.request(url)

req.add_header(key,value)

resp=request.urlopen(req)

print(resp.read().decode(「utf-8」))

2,使用post

python 爬蟲 網路資料採集 入門知識

1 正規表示式符號與方法 常用符號 匹配任意字元,換行符 除外 匹配前乙個字元0次或無限次 匹配前乙個字元0次或1次 貪心演算法 非貪心演算法 括號內的資料作為結果返回 2 正規表示式符號與方法 常用方法 findall 匹配所有符合規律的內容,返回包含結果的列表 search 匹配並提取第乙個符合...

python爬蟲入門 初步採集

獲取維基百科 的任何頁面並提取頁面鏈結 import urllib2 import bs4 html urllib2.urlopen bsobj bs4.beautifulsoup html.read lxml for link in bsobj.find a if href in link.att...

Python網路資料採集

from urllib.request import urlopen from bs4 import beautifulsoup import re pages set defgetlinks pageurl global pages html urlopen pageurl bsobj beaut...