Python爬蟲 理論基礎

2021-08-08 01:26:37 字數 753 閱讀 6941

其實爬蟲沒有大家想象的那麼複雜,有時候也就是幾行**的事兒,千萬不要把自己嚇倒了。這篇就清晰地講解一下利用python爬蟲的理論基礎。

首先說明爬蟲分為三個步驟,也就需要用到三個工具。

利用網頁解析器解析需要的url,進而進行匹配。

url管理器有三大類。

記憶體:以set形式儲存在記憶體中

儲存在關係型資料庫mysql等

快取資料庫redis中

網頁解析器一共有四類:

1.正規表示式,不過對於太複雜的匹配就會有些難度,屬於模糊匹配。

2.html.parser,這是python自帶的解析工具。

3.beautiful soup,一種第三方控制項,顧名思義,美味的湯,用起來確實很方便,很強大。

4.lxml(apt.xml),第三方控制項。

以上的這些全部屬於結構化解析(dom樹)

什麼式結構化解析(dom)?

document object model(dom)是一種樹的形式。

beautiful soup的語法

html網頁—>建立beautifulsoup物件—>搜尋節點 find_all()/find()—>訪問節點,名稱,屬性,文字等……

beautiful soup官方文件

爬蟲高階之路 1 理論基礎

在大資料的背景下,我們需要網路上的金融,醫學,新聞等資料進行研究時,如果人工的手段去獲取這些資料的話,需要大量的時間和精力。為此網路爬蟲的產生為我們解決了這些問題。網路爬蟲可以自動的瀏覽網路中的資訊,當然瀏覽資訊的時候需要按照我們制定的規則去瀏覽,這些規則我們將其稱為網路爬蟲的演算法。使用pytho...

TCP IP理論基礎

一 tcp ip的分層模型 osi協議參考模型,它是基於國際標準化組織 iso 的建議發展起來的,它分為7個層次 應用層 表示層 會話層 傳輸層 網路層 資料鏈路層及物理層。這個7層的協議模型雖然規定得非常細緻和完善,但在實際中卻得不到廣泛的應用,其重要的原因之一就在於它過於複雜。但它仍是此後很多協...

TCP IP理論基礎

linux中網路棧的介紹一般分為四層的internet模型。分別為應用層 傳輸層 網際層和網路介面。tcp ip實際上是乙個協同工作的通訊家族,為網路資料通訊提供通路。為方便將tcp ip協議族大致上分為三部分 1.internet協議 ip 這一部分也稱為網路層。主要包括ip icmp和arp。其...