python爬蟲入門初步認識

2021-08-15 21:13:26 字數 932 閱讀 8265

python簡單的爬蟲技術,這裡我用的是python3.x版面進行研究,主要對兩個python庫進行操作。在此之前你需要安裝python3.x環境

1、urllib(python3.x官方基礎模組)。

2、beautifulsoup4(python3.x第三方模組)。使用前需要安裝

beautifulsoup4 window安裝過程

開啟命令列win+r,輸入

pip install beautifulsoup4

如果你既安裝了python2.x也安裝了python3.x,你需要輸入下面的命令

pip3 install beautifulsoup4

驗證是否已經安裝成功,在命令列輸入python進入python命令列環境,然後輸入from bs4 import beautifulsoup 如果沒有報錯,恭喜你安裝成功了

說了那麼多,下面把實現**呈上

#匯入urllib 庫

from urllib import request

from bs4 import beautifulsoup

resp = request.urlopen("")

#列印出爬取內容,並以utf-8編碼輸出

print(resp.read().decode("utf-8 "))

這個**執行沒問題

#匯入urllib 庫

from urllib import request

from bs4 import beautifulsoup

resp = request.urlopen("")

#列印出爬取內容,並以utf-8編碼輸出

print(resp.read().decode("utf-8 "))

爬取163卻發現報錯了這是什麼問題呢?

初步認識爬蟲

1.什麼是爬蟲?按照一定的規則,自動地抓取全球資訊網資訊的程式或者指令碼。按照系統結構和實現技術,大致可以分 通用網路爬蟲 聚焦網路爬蟲 增量式網路爬蟲 深層網路爬蟲。實際的網路爬蟲系統通常是幾種爬蟲技術相結合實現的 通用網路爬蟲 scalable web crawler 主要為門戶站點搜尋引擎和大...

python爬蟲入門 初步採集

獲取維基百科 的任何頁面並提取頁面鏈結 import urllib2 import bs4 html urllib2.urlopen bsobj bs4.beautifulsoup html.read lxml for link in bsobj.find a if href in link.att...

git入門 初步認識

由於工作的變換,開始接觸git,所以把git進行了初步的學習和整理。此系列的內容基本都是來自網路上各個的經驗 總結和分享,個人也僅僅用於學習習記錄,方便日後檢視,如有侵權望告知。1 版本控制和git。上乙個工作用的是svn,自己也沒有系統的學習過,就直接熟悉常用命令開始上手工作,雖然也不耽誤什麼,但...