python爬蟲小記

1、在寫爬蟲的時候，思考**的總體格局，讓**既可以捕捉異常又容易閱讀

2、具有周密的異常處理功能，會讓快速穩定地網路資料採集變得簡單易行。

3、面對頁面解析難題（gordian knot）的時候，不假思索地直接寫幾行語句來抽取資訊是非常直接的做法。但是，像這樣魯莽放縱地使用技術，只會讓程式變得難以除錯或脆弱不堪，甚至二者兼具。在開始解析網頁之前，應該先考慮解析複雜的 html 頁面時需要避免的問題。

4、面對埋藏很深或格式不友好的資料時，千萬不要不經思考就寫**，一定要三思而後行

1、通常在你準備列印、儲存和運算元據時，應該最後才使用 .get_text() 。一般情況下，應該盡可能地保留 html 文件的標籤結構。

2、beautifulsoup 裡的 find() 和 findall() 可能是最常用的兩個函式。借助它們，你可以通過標籤的不同屬性輕鬆地過濾 html 頁面，查詢需要的標籤組或單個標籤。

findall(tag, attributes, recursive, text, limit, keywords)
find(tag, attributes, recursive, text, keywords)

3、find_all() 和 find() 只搜尋當前節點的所有子節點,孫子節點等. find_parents() 和 find_parent() 用來搜尋當前節點的父輩節點,搜尋方法與普通tag的搜尋方法相同,搜尋文件搜尋文件包含的內容.

4、導航樹

5、使用網路爬蟲的時候，你必須非常謹慎地考慮需要消耗多少網路流量，還要盡力思考能不能讓採集目標的伺服器負載更低一些。

基礎練習抓取**：