Python之道 爬蟲1

2021-08-04 22:11:24 字數 1502 閱讀 6625

「形而上者為之道,形而下者為之器「

學程式語言,應學習其核心思想,掌握其精髓!應懂得透過現象抓到本質的東西;

建立此系列博文,理清自己的思路,python大道淵源流長,且行且珍惜。

爬蟲,即網路爬蟲,大家可以理解為在網路上爬行的一直蜘蛛,網際網路就比作一張大網,而爬蟲便是在這張網上爬來爬去的蜘蛛,如果它遇到資源,那麼它就會抓取下來。想抓取什麼?這個由我們來控制;

如果它在抓取乙個網頁,在這個網中發現了一條道路,其實就是指向網頁的超連結,那麼它就可以爬到另一張網上來獲取資料。這樣,整個連在一起的大網對這之蜘蛛來說觸手可及,分分鐘爬下來不是事兒。

一,獲取整個頁面資料
#coding=utf-8

import urllib

defgethtml

(url):

page = urllib.urlopen(url)

html = page.read()

return html

html = gethtml("")

print html

二,篩選頁面中想要的資料

python 提供了非常強大的正規表示式

print getimg(html)三,將頁面篩選的資料儲存到本地

#coding=utf-8

Python爬蟲基礎 1

url uniform resource locator 統一資源定位符。採用url可以用一種統一的格式來描述各種資訊資源,包括檔案 伺服器的位址和目錄等。url的一般格式為 帶方括號的為可選項 protocol hostname port path parameters query fragmen...

Python爬蟲隨筆1

問答 做到現在,沒有資料啊,所以需要一些資料 爬蟲很好玩,早就在知乎看見別人爬各種羞羞 的 不過一直沒時間,最近感覺自己秋招也沒啥希望,還是做點自己想做的事情吧 我的python基礎幾乎為0,雖然看過語法,然而都忘了,這玩意不寫,兩天就忘了 所以給點動力,也可以好好工作一把 一直聽說爬蟲,其實並不是...

Python爬蟲基礎1

python版本 3.6 編譯器 pycharm 系統 win 10 1 file new project create 2 右擊建立的專案 new python file 3 開始輸入 import urllib.request response urllib.request urlopen pr...