搞定Python網路爬蟲，吃裡爬外？

資料分析

多人學習python，不知道從何學起。

很多人學習python，掌握了基本語法過後，不知道在**尋找案例上手。

很多已經做案例的人，卻不知道如何去學習更加高深的知識。

那麼針對這三類人，我給大

qq群：1057034340

大資料時代，要想進行資料分析，首先要有資料**，單靠公司那幾條毛毛雨(資料)，分析個寂寞都不夠，唯有通過學習爬蟲，從外部(**)爬取一些相關、有用的資料，才能讓老闆進行商業決策時的有據可依，而你，亦是老闆。

一提到老闆，漂亮的小mm，興奮得不得了，馬上大聲問：你們it界，最帥的是不是就是那個搞搜尋引擎的李老闆?

一想到排名賺到的money，李老闆一分都不給我，我就跟人力mm說：好了，不跟你扯犢子了，我要跟我的老鐵說網路爬蟲的原理了，你個吃裡爬外的傢伙，見你的老闆去吧。

爬蟲是什麼

說白點，就是用python程式語言模擬瀏覽器，訪問指定**，對其返回結果，按規則進行篩選並提取自己需要的資料，存放起來使用，以供使用。

看過我《第10天 | 12天搞定python，檔案操作》和《第11天 | 12天搞定python，資料庫操作》的老鐵，應該知道，資料常存在檔案或資料庫中。

爬取流程

爬蟲程式設計，指定**，模擬瀏覽器傳送請求(獲取網頁**)->提取有用的資料->存放於檔案或資料庫中。

(1) 用http庫向目標站點發起請求，即傳送乙個request(包含請求頭和請求體等)；

(2) 對伺服器返回的response，用內建的庫(html、json、正規表示式)就進行解析

(3) 將所需資料儲存到檔案或資料庫當中。

爬點定位

在編寫爬蟲**的過程中，經常需要指定爬取的節點或路徑。如果我告訴你，chrome瀏覽器，就可以快速獲取節點或路徑的話，你會不會馬上看一下電腦是否安裝了？

會的話，那就對了，不會的，趕緊去安裝吧。

在頁面中，按下鍵盤f2鍵，可顯示源**。滑鼠選中你要獲取的節點，右鍵【檢查】就可定位到**中，右鍵**，選擇【copy】-【copy selector 】或【copy xpath】便可複製節點或路徑的內容。