爬蟲的開始學習20180410

2021-08-18 13:00:34 字數 1143 閱讀 6729

以下內容**

為了做乙個筆記,所以我拷貝了乙份,也供大家一起學習!

安裝bs4庫

安裝lxml庫

# ip位址取自國內髙匿**ip**:

# 僅僅爬取首頁ip位址就足夠一般使用

from bs4 import beautifulsoup

import requests

import random

defget_ip_list

(url, headers):

web_data = requests.get(url, headers=headers)

soup = beautifulsoup(web_data.text, 'lxml')

ips = soup.find_all('tr')

ip_list =

for i in range(1, len(ips)):

ip_info = ips[i]

tds = ip_info.find_all('td')

return ip_list

defget_random_ip

(ip_list):

proxy_list =

for ip in ip_list:

proxy_ip = random.choice(proxy_list)

proxies =

return proxies

if __name__ == '__main__':

url = ''

headers =

ip_list = get_ip_list(url, headers=headers)

proxies = get_random_ip(ip_list)

print(proxies)

函式get_random_ip(ip_list)傳入第乙個函式得到的列表,返回乙個隨機的proxies,這個proxies可以傳入到requests的get方法中,這樣就可以做到每次執行都使用不同的ip訪問被爬取的**,有效地避免了真實ip被封的風險。proxies的格式是乙個字典:。

web_data =requests.get(url, headers=headers, proxies=proxies)

python爬蟲 開始爬蟲前的準備工作

學習python爬蟲也有一段時間了,各種爬蟲技術多多少少也接觸過一些。因為有學弟學妹說想學爬蟲,我萌生了寫個簡單的python爬蟲教程的想法。一來,給學弟學妹們提供方便,提供乙個入門的渠道 二來,總結這些天自身所學,希望可以藉此提高自己,加深認識 三來,如果偶爾有大佬路過,求大佬指出文中錯誤的地方,...

ROS學習(1) 開始的開始

從今開始就要正式開始進行ros的學習了,學習ros應該說是興趣使然,雖然還有大半年的時間就面臨著畢業 但是感覺自己身上的壓力沒有那麼多,也有時間開始學習一些新的東西。而且思考了一下自己的學習路線,感覺之前所學都是為了ros來鋪的路,我學習了c 學習了qt,學習了opencv,學習了pcl,雖然這些都...

redis學習 01 開始的開始

海量使用者 高併發 效能瓶頸 磁碟io效能低下 擴充套件瓶頸 資料關係複雜,擴充套件性差,不便於大規模集群 降低磁碟io次數,越低越好 記憶體儲存 去除資料間關係,越簡單越好 不儲存關係,僅儲存資料nosql 即 not only sql 泛指非關係型的資料庫 作為關係型資料庫的補充。作用 應對基於...