python寫網路爬蟲

2021-09-22 03:41:14 字數 498 閱讀 9374

注:本文旨在練習正規表示式的簡單使用方法

#!/usr/bin/evn python

# -*- coding: cp936 -*-

def gethtml(url):           #定義gethtml()函式,用來獲取頁面源**

page = urllib.urlopen(url)    #urlopen()根據url來獲取頁面源**

html = page.read()           #從獲取的物件中讀取內容

return html

uri = raw_input("請輸入**: ")

執行指令碼test.py

抓取到的如下:

學習python寫網路爬蟲(一)

最簡單的爬蟲 import urllib2 defdownload url return urllib2.urlopen url read print download 更加健壯的版本,可以捕獲異常了 import urllib2 defdownload url print downloading ...

python寫網路爬蟲的環境搭建

網上找了好多資料,都不全,通過資料的整理,包括自己的測試,終於把環境打好了,真是對於乙個剛接觸爬蟲的人來說實屬不易,現在分享給大家,若有不夠詳細之處,希望各位能補充。這裡有乙個巨坑,python2.x與python3.x變化實在是太大,博主開始用的python2.7,後來發現很多模組版本太新,根本沒...

python做爬蟲難嗎 python寫爬蟲難嗎

所謂網路爬蟲,通俗的講,就是通過向我們需要的url發出http請求,獲取該url對應的http報文主體內容,之後提取該報文主體中我們所需要的資訊。下面是乙個簡單的爬蟲程式 http基本知識 當我們通過瀏覽器訪問指定的url時,需要遵守http協議。本節將介紹一些關於http的基礎知識。http基本流...