網頁三大特徵及爬蟲思路和流程(爬蟲)

2021-08-22 05:51:04 字數 442 閱讀 8934

網頁三大特徵:

1.網頁都有自己唯一的url(統一資源命令符)來進行定位

2.網頁都使用html(定位超文字標記語言)來描述頁面資訊

3.網頁都使用http/https(超文字傳輸協議)協議來傳輸html資料

爬蟲的設計思路:

1.首先確定需要爬取的網頁url位址

2.通過http/https協議來獲取對應的html頁面

3.提取html頁面裡有用的資料

a.如果是需要的資料就儲存起來

b.如果是頁面裡的其他url,那就繼續執行第二步

爬蟲流程:

1.先由urllib的request開啟url得到網頁的html文件

2.瀏覽器開啟網頁源**分析元素節點

3,通過beautifulsoup或者正規表示式提取想要的資料

4.儲存資料到本地磁碟或資料庫(抓取,分析,儲存)

物件導向程式設計Java 三大特徵和設計思想

面型物件的三大特徵 1.封裝性 模組化 將屬性和行為封裝在類中,程式定義很多類 資訊隱蔽 將類的細節部分隱藏起來,使用者只通過受保護的介面訪問某個類。class person public void setage int a 使用者通過輸出年齡或輸入年齡 string name void sayhe...

物件導向的三大特徵和五大原則

物件導向的三大特性 1.封裝所謂封裝,就是將客觀事物封裝成抽象的類,並且類可以把資料和方法讓可信的類或者物件進行操作,對不可信的類或者物件進行隱藏。類就是封裝資料和操作這些資料 的邏輯實體。在乙個類的內部,某些屬性和方法是私有的,不能被外界所訪問。通過這種方式,物件對內部資料進行了不同級別的訪問控制...

物件導向的三大特徵和5大基本原則

1三大特徵 1.1 封裝 把抽象的事物封裝成抽象的類,並且類可以把自己的資料和方法只讓可信的類或者物件操作,對不可信的進行資訊隱藏。1.2 繼承 繼承是物件導向的基本特徵之一,繼承機制允許建立分等級層次的類。繼承就是子類繼承父類的特徵和行為,使得子類物件 例項 具有父類的例項域和方法,或子類從父類繼...