linux下用python寫簡單的爬蟲程式

2021-07-12 02:34:28 字數 1886 閱讀 4565

簡述下這個爬蟲程式的基本原理:

geturl.py

#coding=utf-8

import urllib

defgethtml

(url):

page = urllib.urlopen(url)

html = page.read()

return html

html = gethtml("")

print html

新建乙個geturl.py,在裡面定義乙個gethtml()函式獲取網頁內容。

**通過正規表示式獲取你所想要的內容:

正規表示式:

** 可選項

在子模式後面加上問號,它就變成了可選項。它可能出現在匹配字串,但並非必須的。

r』(heep://)?(www.)?python.org』

只能匹配下列字元:『『

『www.python.org』

『python.org』

** 重複子模式

(pattern)* : 允許模式重複0次或多次

(pattern)+ : 允許模式重複1次或多次

(pattern) : 允許模式重複m~ n 次

re.compile() 可以把正規表示式編譯成乙個正規表示式物件.

re.findall() 方法讀取html 中包含 imgre(正規表示式)的資料。

獲取url效果圖:

利用for迴圈對進行遍歷,並且對其重新命名1.

獲取到的儲存在預設的程式存放目錄

哈哈,簡單python爬蟲程式就到這裡了。

這裡是腳注的 內容. ↩

linux下用pdb除錯python

linux下除錯python,對於輕量級的工程,直接print是最簡單的方法,但是當變數變多,工程變大的時候,print就會力不從心,linux下也沒有介面ide,所以就用pdb來除錯即是最佳選擇,也很簡單。也可以用更友好的ipdb,不過ipdb不是python的標準庫,是需要安裝的,用起來是完全一...

linux下用vim寫基本的c程式

先看支援vim不,輸入vim 如果提示你安裝,就安裝 sudo apt get install vim gtk 如果提示依賴vim common的話,可以先刪掉vim common sudo apt get remove vim common 然後sudo apt get install vim g...

在Linux情況下用gcc寫程式

測試下linux是否裝有gcc。輸入gcc 如果存在它會提示 no input files 不存在則提示gcc not found 沒安裝的,又不會安裝的,可以參考我的另一篇經驗 教你怎麼在linux上安裝gcc 首先touch helloworld.c 新建乙個helloworld.c檔案。vim...