python爬蟲小記

2021-09-18 02:24:33 字數 807 閱讀 4213

1、在寫爬蟲的時候,思考**的總體格局,讓**既可以捕捉異常又容易閱讀

2、具有周密的異常處理功能,會讓快速穩定地網路資料採集變得簡單易行。

3、面對頁面解析難題(gordian knot)的時候,不假思索地直接寫幾行語句來抽取資訊是非常直接的做法。但是,像這樣魯莽放縱地使用技術,只會讓程式變得難以除錯或脆弱不堪,甚至二者兼具。在開始解析網頁之前,應該先考慮解析複雜的 html 頁面時需要避免的問題。

4、面對埋藏很深或格式不友好的資料時,千萬不要不經思考就寫**,一定要三思而後行

1、通常在你準備列印、儲存和運算元據時,應該最後才使用 .get_text() 。一般情況下,應該盡可能地保留 html 文件的標籤結構。

2、beautifulsoup 裡的 find() 和 findall() 可能是最常用的兩個函式。借助它們,你可以通過標籤的不同屬性輕鬆地過濾 html 頁面,查詢需要的標籤組或單個標籤。

findall(tag, attributes, recursive, text, limit, keywords)

find(tag, attributes, recursive, text, keywords)

3、find_all() 和 find() 只搜尋當前節點的所有子節點,孫子節點等. find_parents() 和 find_parent() 用來搜尋當前節點的父輩節點,搜尋方法與普通tag的搜尋方法相同,搜尋文件搜尋文件包含的內容.

4、導航樹

5、使用網路爬蟲的時候,你必須非常謹慎地考慮需要消耗多少網路流量,還要盡力思考能不能讓採集目標的伺服器負載更低一些。

基礎練習抓取**:

python爬蟲小記

builtins cached doc file loader name package path spec error parse request response request的使用 1.request請求最簡單的操作是用urlopen方法,如下 import urllib.request r...

Python 爬蟲小記

1 背景 需要爬取網上的資訊,ubuntu系統下 使用python完成 使用方法 from bs4 import beautifulsoup requests pip install requests 用python語言基於urllib編寫的,採用的是apache2 licensed開源協議的htt...

爬蟲小記(2)

自從兩個月前說要學習爬蟲開始,我其實做了好多準備了,只是開始的有點晚了吧。希望後面的進度能夠變的快一點。使用這些庫就能實現我們想要做的一些基本的功能,包括爬取一些簡單的 的內容,requests庫的功能是我覺得最實用的,只依靠這樣乙個庫我就可以實現解析乙個url,獲得網頁裡的內容,還可以判斷在連線u...