一起學爬蟲(一)入門須知

2021-10-07 12:24:00 字數 606 閱讀 6524

可憐的博主終於熬過了考試周…半條命都沒了…跪求下學期開學,別再上網課了,真管不住自己(手動狗頭)

考試周期間有很多「悔不當初」,不再一一枚舉,但其中有一條就是這學期的python課真的太水了,學了一學期啥也不會…所以,打算暑假啃一本《python網路爬蟲從入門到實踐》。這一系列部落格的內容呢將是我在學習過程中的筆記。

此專題所用的開發語言為python3

就目前來看,我國有關爬蟲的法律並不完善,但還是要注意的,涉及個人使用或科研使用的爬蟲並不違法,但只要跟商業盈利沾邊,大家就一定要仔細斟酌一下了。

有關具體的安全性問題,robots協議(網路爬蟲排除標準)已經有了詳細說明,大家可以在需要的時候,自行檢視。請大家在練習或應用爬蟲時,務必遵守這個協議。

另外,我們自己在使用時也要注意不要爬去過多的資料量,而且也要限制爬取資料的速度,不然很容易被誤認為惡意攻擊,一方面會影響自己的爬蟲學習,另一方面也會給被爬**增加負擔。

解析網頁:從整個網頁的資料中提取出自己想要的資料,常用的方法有有正規表示式、beautifulsoup包。

儲存資料:一般會存在csv檔案中,更高階的方法是儲存在資料庫裡。

和我一起入門python爬蟲

前幾天就想寫乙個爬蟲系列的文章,因為比較忙所以沒有寫 還不是因為懶 趁著現在屋裡比較的涼爽,心也比較的靜,總結下目前遇到的一些爬蟲知識,本系列將從簡單的爬蟲開始說起,後會逐漸的提公升難度,同時會對反爬手段做乙個總結,以及用具體的事例來演示,不同的反爬現象和實現手段。本系列側重點是應用和實戰,所以,對...

一起學爬蟲(Python) 01

一起學爬蟲 python 19 年輕人,進來學自動化 2.為什麼要學爬蟲 3.爬蟲違法嗎?爬蟲的分類 爬與反爬 robots.txt協議 http協議和https協議 加密方式 大致知道就好 結尾這個理由很充分吧,錢錢錢錢錢,沒有錢可是萬萬不能的!在日常生活中,有些人可以為了錢殺人放火,搶劫綁架,拐...

一起學爬蟲(Python) 03

一起學爬蟲 python 19 年輕人,進來學自動化 總結header 這裡呢,我們要把找到的身份標識以字典的形式記錄下來,不要問為什麼,聽話!差點忘了 第一步要引用模組。import requests然後再按照昨天的步驟 這麼想你就輸了!為什麼呢?扒衣服是一件很簡單的事,不用思考那麼多對吧,但是搶...