爬蟲中的python使用技巧

2021-07-25 18:32:18 字數 1074 閱讀 5642

python 真的好用!

要多用print()函式來做測試,如果不清楚某個變數的型別,可以用print(type(x))來先做乙個型別輸出,其中x就是你要看的變數。

比如說爬蟲會用到美麗雞湯beautifulsoup,一般使用方法會像這樣:

soup = beautifulsoup(value1, 'html.parser')
如果你要用print(soup)的話可能會報錯(我的python2就報錯了),然後可以用:

print(type

(soup))

來輸出它的型別;注意是type()而不是typeof()要和c語言區別開來。

爬蟲在網頁上抓取內容依賴dom的知識,然而你要挑乙個標籤出來就必須用到這個select()函式。例如:

alink = soup.select('a')
就選擇了檔案中所有的a標籤,放入變數alink裡面。可以選擇的標籤還有很多啊,比如soup.select('h1')就選擇了所有的一級標題;soup.select('#id1')選中所有id是id1的元素;soup.select('.link')選中了所有類是link的元素。

這個alink是乙個list,類似於陣列的存在,所以如果你要看看它是什麼,一般要採用遍歷輸出的方法:

for

link in alink:

print(link)

輸出後你會發現結果還是html的乙個完整標籤,如果你要內容,那麼輸出的是這樣:

for

link in alink:

print(link.text)

for

link in alink:

print(link['href'])

這就ok。

Python爬蟲中Requests的使用

import requests url 兩種請求方式 使用get請求 rsp requests.get url print rsp.text 使用request請求 rsp requests.request get url print rsp.text 使用引數headers和params 研究返回...

Python中proprety的使用技巧

寫在前面,python中proprety在python中大量使用,尤其是在一些框架和網路大牛寫的 中,非常常見,所有學習proprety就非常必要了,廢話不多說,直接上 定義例項方法的方法來使用 class test object 可以定義引數 def init self,name liming s...

python中的pop函式使用技巧

python 中的pop函式使用小技巧 1.pop 函式是主要作用在列表 list 中,移除列表中的元素,且通過下標值來實現功能,預設情況下移除列表的最後乙個元素,每次只能移除乙個。如果要移除列表第乙個元素開始,則只需要pop 0 利用下標值從0開始的屬性 就可以實現其功能。2.基於上面的功能說明可...