Python 網路爬蟲隨筆

2021-08-22 06:14:40 字數 789 閱讀 1172

網路爬蟲之前感覺很難,但是其實看過網上一些詳細的教程之後覺得還是可以掌握一二的

最主要的原因我認為可能是因為python的相關工具包做的確實很完善,相當好用。

#import requests

#from bs4 import beautifulsoup

接下來就可以使用相關函式了

url = '……'

wbdata = requests.get(url).text

soup = beautifulsoup(wbdata,'lxml')

index = soup.find_all(class_= 'tmpl-links')

其中url,因為我是迴圈爬蟲,所以**是由物種的id構成的;通過get函式得到文字,然後用美麗湯函式解析;

最後用find_all函式,找到所有class值是』tmpl-links』的標籤對,這樣index裡面存入的就是這個標籤對裡面的內容了;

需要注意的是,這樣會連帶著一起把標籤對一起存入進去,所以我之後又用處理字串的方法把各種標籤對去掉了

同時find_all函式也可以用於直接找指定名字的標籤,例如

data = index2.find_all('p')
這樣就可以把所有p標籤裡面的內容爬出來了

其實經過乙個簡單的小爬蟲之後,我認為find_all函式確實是比較實用的函式,功能確實強大

後面如果還有爬蟲的機會的話,希望能夠多熟練使用一些其它的美麗湯下的函式

Python爬蟲隨筆1

問答 做到現在,沒有資料啊,所以需要一些資料 爬蟲很好玩,早就在知乎看見別人爬各種羞羞 的 不過一直沒時間,最近感覺自己秋招也沒啥希望,還是做點自己想做的事情吧 我的python基礎幾乎為0,雖然看過語法,然而都忘了,這玩意不寫,兩天就忘了 所以給點動力,也可以好好工作一把 一直聽說爬蟲,其實並不是...

python網路程式設計隨筆

python實在是太方便,太易用了,三方庫的支援又全,語法又簡單,對開發人員來說,實在是居家旅行,x的必備利器。週末研究了下python的網路支援,做一下記錄,以備隨後翻閱。python支援bsd的socket進行網路程式設計,其api跟c中的大同小異,先看看tcp方式的,說到網路程式設計,肯定會設...

Python網路爬蟲

找到url,也就是相當於入口,找到你要爬取的鏈結,獲取整個頁面資料 使用正規表示式,匹配到你想要爬取的內容,這裡使用的主要是正規表示式和一些常用的開源庫 最後一步就是寫入文字以及儲存問題了,如文字檔案 資料庫 coding utf 8 是用來指定檔案編碼為utf 8 from urllib impo...