python寫網路爬蟲的環境搭建

2022-08-25 17:27:19 字數 1240 閱讀 9754

網上找了好多資料,都不全,通過資料的整理,包括自己的測試,終於把環境打好了,真是對於乙個剛接觸爬蟲的人來說實屬不易,現在分享給大家,若有不夠詳細之處,希望各位網友能補充。

這裡有乙個巨坑,python2.x與python3.x變化實在是太大,博主開始用的python2.7,後來發現很多模組版本太新,根本沒辦法使用,相容性出了問題,索性把python2.7給卸了,然後下了python3.4,如果你習慣了用python2.x,就不要輕易公升級,如果你是剛學python,建議還是安裝3.x版本。還有就是注意python是64位還是32位。

第二步,環境變數設定,由於會使用python命令,所以最好還是設乙個

桌面計算機—>右鍵「屬性」—>點選「高階系統設定」—>高階屬性裡點選「環境變數」—>在系統變數裡path中新增python安裝目錄。

beautiful soup是乙個非常流行的python模組,這個模組可以解析網頁,並提供定位內容的便捷介面,對於beautiful soup的介紹,大家在網上都能查到,博主就不浪費時間了。對於python3.x必須安裝beautiful soup4,其他版本可能安裝不了。

開啟cmd編輯器,進入到beautifulsoup資料夾內

執行 setup.py build

然後執行 

setup.py install 

這樣 beautiful soup模組就順利的安裝到了python3.4裡

cp27代表是python2.7,cp34代表python3.4,amd64是64位的系統,不加代表32位。大家一定要對號入座,版本下錯就慘了,就像博主我。。。

-m pip upgrade pip」,公升級完成後,再次安裝lxml,就完成了。最後開啟pycharm,測試程式ok!!!

附上**網頁抓取測試**:

本文**於:

python寫網路爬蟲

注 本文旨在練習正規表示式的簡單使用方法 usr bin evn python coding cp936 def gethtml url 定義gethtml 函式,用來獲取頁面源 page urllib.urlopen url urlopen 根據url來獲取頁面源 html page.read 從...

學習python寫網路爬蟲(一)

最簡單的爬蟲 import urllib2 defdownload url return urllib2.urlopen url read print download 更加健壯的版本,可以捕獲異常了 import urllib2 defdownload url print downloading ...

python寫爬蟲的彎路

from bs4 import beautifulsoup import requests import re reponse requests.get url reponse.encoding gbk html reponse.text 這是網頁的部分 第一章 你心裡沒點數嗎 第二章 原來是一場精...