我的爬蟲不歸路(一)

2021-07-22 04:09:48 字數 1828 閱讀 6821

by 月明光

27/08/2016

學習python爬蟲已經有一段時間了,一直沒來得及整理下頭緒,趁著夜深人靜,正好梳理梳理。幾個月前,自己對於網路爬蟲是一無所知,促使自己去了解爬蟲**於對每天不停的滑鼠查詢的厭倦,我要一種新的資訊獲取方式,我要遮蔽滿屏的廣告,我要呈現在我眼前的就是我想要的資訊,而不是被加了各種全家桶的無用資訊。

其實對於我們每乙個個體,經過這麼多年在網路世界的沉澱,每天獲取資訊的方式、訪問的**也相對穩定。上個微博,看看新聞……每天機械的點開自己常用的**,理所當然,這些**必然推送給你許多對你並沒有任何作用的資訊,我為什麼要去被動接受這些資訊呢?是的,我要揭竿而起,不去做資訊的被動接受者,於是走上了爬蟲這條不歸路,去主動獲取自己想要的資訊。

-為什麼要選擇python來做爬蟲?的源**,ctrl + f搜尋url?後面的字串v=14&b=cmvmzxjlzq&s=uhullv7,驚奇的發現就存在源**中。再往上找,你又會發現」word」:「referee」,問題迎刃而解。需要解釋的是,在向伺服器get資料的時候是需要傳遞一些引數,「?「後面的內容即是要傳遞的引數,符號「&」表示的是and的意思。

好了,我們現在要做的就是寫出**,自動找出這些單詞的音訊鏈結位址。雖然python有自己的庫來處理web,但是還是強烈推薦使用第三方requests和beautifullsoup這兩個庫。requests用來獲取網頁資訊,beautifulsoup用來對資訊進行處理。**如下,是不是很簡潔?這就是python做爬蟲的一大優勢。

本文只是介紹了乙個非常簡單的爬蟲,需要的資訊都在網頁源**裡清晰呈現,更多的時候,網頁的資訊不會這麼直接的給出來,如果想爬取更多的東西,還需要進一步的學習。比如對那些有反爬蟲機制的**進行偽裝操作,比如對採用非同步載入的動態網頁該如何抓取?總之要學的內容還有很多。如果你對爬蟲非常感興趣,可以參考ryan mitchell-web scraping with python_ collecting data from the modern web-o』reilly media這本書來進行學習。

MySQL的不歸路

慘淡中帶著慘淡,作為不得不深入了解的資料庫,mysql又是一條不歸路。基礎知識要點 mysql架構 mysql安裝 使用者許可權與管理 邏輯架構 儲存引擎 join複習 索引介紹 explain 50萬條資料 單錶使用索引及常見索引失效 關聯查詢優化 子查詢優化 排序分組優化 覆蓋索引優化 慢查詢日...

踏上nodejs的不歸路 前言

說起來有些許的慚愧,作為一名剛入行不久的程式猿,在這裡班門弄斧未免有些太單薄,但是我是想和大家分享一下好用的技術,大家就叫我東仔吧 大學時候同學都這麼叫我 說來比剛才還慚愧,我的專業不是計算機,也不是網路,我是學韓語的 這裡應該有女生尖叫,但估計這個論壇也應該沒有女生瀏覽 人生中有好多萬萬想不到的事...

踏上Flask的不歸路 二

第二篇 flask 中的 render redirect httpresponse 1.flask中的httpresponse 在flask 中的httpresponse 在我們看來其實就是直接返回字串 2.flask中的redirect 3.flask 中的 render render templ...