python網路爬蟲實戰1 基礎篇

很多資料並沒有存在自家的資料庫中，在大資料時代，很多的資料都放在網路上，以網頁的形式呈現給大家。我們如何將這些沒有固定格式的非結構化資料批量從網路上拷貝下來，並提供給後來者進行資料價值的挖掘，是一件非常有意義的事情。這裡，我們必須借助etl（extract，transformation，loading）三個方法將這些資料轉化成結構化資料取用。

網路上有許多網頁諮詢，如何將這些網路諮詢結構化，並把有用的諮詢抽取出來呢？這時候我們就要借助網路爬蟲。網路爬蟲並不是新技術，像各大搜尋引擎的早期技術都使用了網路爬蟲，在世界各地爬取網頁。而對於大資料時代，網路爬蟲更是尤為重要。

因為網頁資料報含許多html標籤，要進行進一步處理，丟到剖析器中進行處理，之後再儲存到資料庫之中。

這裡推薦chrome的開發人員工具，監聽網頁的請求和回應。

右鍵--》檢查，開啟開發人員工具。

4.1 通過pip安裝套件

pip install requests

pip install beautifulsoup4

注：如果你安裝了anaconda整合開發環境就不要安裝requests和beautifulsoup4，直接在jupyter notebook中編寫爬蟲程式。

4.2 chrome的開發人員工具或者firefox的firebug

python網路爬蟲實戰1 基礎篇

python實戰網路爬蟲

python 網路爬蟲（1）

Python網路爬蟲基礎

python網路爬蟲實戰1 基礎篇

python實戰 網路爬蟲

python 網路爬蟲（1）

Python網路爬蟲基礎

相關推薦

python實戰網路爬蟲