1 爬蟲簡介

2021-10-18 17:53:02 字數 1335 閱讀 6610

定義:一段自動抓取網際網路資訊的程式,從網際網路上抓取對於我們有價值的資訊

網頁解析器:將乙個網頁字串進行解析,可以按照我們的要求來提取出我們有用的資訊,也可以根據dom樹的解析方式來解析。網頁解析器有正規表示式(直觀,將網頁轉成字串通過模糊匹配的方式來提取有價值的資訊,當文件比較複雜的時候,該方法提取資料的時候就會非常的困難)、html.parser(python自帶的)、beautifulsoup(第三方外掛程式,可以使用python自帶的html.parser進行解析,也可以使用lxml進行解析,相對於其他幾種來說要強大一些)、lxml(第三方外掛程式,可以解析 xml 和 html),html.parser 和 beautifulsoup 以及 lxml 都是以 dom 樹的方式進行解析的。

應用程式:就是從網頁中提取的有用資料組成的乙個應用。

1先看如下**:

def

main

(var)

:print

("hiya"

, var)

main(1)

if __name__ ==

"__main__"

: main(

2)

執行結果是:

hiya 1

hiya 2

再看乙個**示例
print

("test1"

)def

fun():

print

("fun"

)def

main()

:print

("main"

) fun(

)if __name__ ==

'__main__'

: main(

)

執行結果是:

test1

main

fun

python是解釋型語言,執行流程通過如下規則判斷:

一段python程式以py檔案執行時,檔案屬性__name__為main;作為模組匯入時,檔案屬性__name__為檔名(模組名)

python中首先執行最先出現的非函式定義和非類定義的沒有縮排的**

後續我們都進行當前執行程式的判斷,在main中進行整個程式的邏輯控制

if __name__ == '__main__':
來自菜鳥教程 ↩︎

爬蟲 1 爬蟲簡介及基礎庫

學習爬蟲,第一步便是要能夠模擬瀏覽器向伺服器發出請求。這一基礎操作可以借助 python 的庫來幫助我們實現,我們只需要學會這些庫的使用即可。最基礎的 http 庫有 注 在 python2 中,有 urllib 和 urllib2 兩個庫來實現 http 請求的傳送。而在 python3 中,ur...

爬蟲 一 爬蟲簡介

很多人都將網際網路比喻成一張非常大的網,將世界連線起來。如果說網際網路是一張網,那麼爬蟲就像在網上爬的小蟲子,通過網頁的鏈結位址來尋找網頁,通過特定的搜尋演算法來確定路線,通常從 的某乙個頁面開始,讀取該網頁的內容,找到該網頁中的其他鏈結位址,然後通過這些鏈結位址尋找下乙個網頁,就這樣一直迴圈下去,...

Scrapy爬蟲 二 爬蟲簡介

列幾個簡單的例子,看看就行 urllib庫 基於python3.5 encoding utf 8 import urllib.request def download data url response urllib.request.urlopen url print response.getcod...