我的爬蟲不歸路（一）

by 月明光

27/08/2016

學習python爬蟲已經有一段時間了，一直沒來得及整理下頭緒，趁著夜深人靜，正好梳理梳理。幾個月前，自己對於網路爬蟲是一無所知，促使自己去了解爬蟲**於對每天不停的滑鼠查詢的厭倦，我要一種新的資訊獲取方式，我要遮蔽滿屏的廣告，我要呈現在我眼前的就是我想要的資訊，而不是被加了各種全家桶的無用資訊。

其實對於我們每乙個個體，經過這麼多年在網路世界的沉澱，每天獲取資訊的方式、訪問的**也相對穩定。上個微博，看看新聞……每天機械的點開自己常用的**，理所當然，這些**必然推送給你許多對你並沒有任何作用的資訊，我為什麼要去被動接受這些資訊呢？是的，我要揭竿而起，不去做資訊的被動接受者，於是走上了爬蟲這條不歸路，去主動獲取自己想要的資訊。

-為什麼要選擇python來做爬蟲？的源**，ctrl + f搜尋url？後面的字串v=14&b=cmvmzxjlzq&s=uhullv7，驚奇的發現就存在源**中。再往上找，你又會發現」word」：「referee」，問題迎刃而解。需要解釋的是，在向伺服器get資料的時候是需要傳遞一些引數，「？「後面的內容即是要傳遞的引數，符號「&」表示的是and的意思。

好了，我們現在要做的就是寫出**，自動找出這些單詞的音訊鏈結位址。雖然python有自己的庫來處理web，但是還是強烈推薦使用第三方requests和beautifullsoup這兩個庫。requests用來獲取網頁資訊，beautifulsoup用來對資訊進行處理。**如下，是不是很簡潔？這就是python做爬蟲的一大優勢。

本文只是介紹了乙個非常簡單的爬蟲，需要的資訊都在網頁源**裡清晰呈現，更多的時候，網頁的資訊不會這麼直接的給出來，如果想爬取更多的東西，還需要進一步的學習。比如對那些有反爬蟲機制的**進行偽裝操作，比如對採用非同步載入的動態網頁該如何抓取？總之要學的內容還有很多。如果你對爬蟲非常感興趣，可以參考ryan mitchell-web scraping with python_ collecting data from the modern web-o』reilly media這本書來進行學習。

MySQL的不歸路
慘淡中帶著慘淡，作為不得不深入了解的資料庫，mysql又是一條不歸路。基礎知識要點 mysql架構 mysql安裝使用者許可權與管理邏輯架構儲存引擎 join複習索引介紹 explain 50萬條資料單錶使用索引及常見索引失效關聯查詢優化子查詢優化排序分組優化覆蓋索引優化慢查詢日...

踏上nodejs的不歸路前言
說起來有些許的慚愧，作為一名剛入行不久的程式猿，在這裡班門弄斧未免有些太單薄，但是我是想和大家分享一下好用的技術，大家就叫我東仔吧大學時候同學都這麼叫我說來比剛才還慚愧，我的專業不是計算機，也不是網路，我是學韓語的這裡應該有女生尖叫，但估計這個論壇也應該沒有女生瀏覽人生中有好多萬萬想不到的事...

踏上Flask的不歸路二
第二篇 flask 中的 render redirect httpresponse 1.flask中的httpresponse 在flask 中的httpresponse 在我們看來其實就是直接返回字串 2.flask中的redirect 3.flask 中的 render render templ...

我的爬蟲不歸路（一）

MySQL的不歸路

踏上nodejs的不歸路 前言

踏上Flask的不歸路 二

相關推薦

踏上nodejs的不歸路前言

踏上Flask的不歸路二