三分鐘帶你學會爬蟲

2021-10-23 06:14:45 字數 3084 閱讀 9907

## 深度學習模型訓練極大的依賴資料,當資料量不夠時,可通過網路爬蟲從網上爬取資料。下面以爬取劉亦菲和劉德華資料為例介紹爬蟲:

## **使用步驟如下:

劉亦菲

劉德華

import re

import requests

from urllib import error

from bs4 import beautifulsoup

import os

num = 0

numpicture = 0

file = ''

list =

def find(url):

global list

print('正在檢測總數,請稍等.....')

t = 0

i = 1

s = 0

while t < 1000:

url = url + str(t)

try:

result = requests.get(url, timeout=7)

except baseexception:

t = t + 60

#import pdb;pdb.set_trace()

continue

else:

result = result.text

pic_url = re.findall('"objurl":"(.*?)",', result, re.s) # 先利用正規表示式找到url

pic_url = re.findall('"objurl":"(.*?)",', html, re.s) # 先利用正規表示式找到url

print('經過檢測%s類共有%d張' % (word, tot))

file = word

y = os.path.exists(file)

if y == 1:

print('該檔案已存在,請重新輸入')

print('網路錯誤,請調整網路後重試')

t = t + 60

else:

dowmloadpicture(result.text, word)

t = t + 60

numpicture = numpicture + tm

print('任務完成')

2. 執行**:python3 spider.py

會提示你輸入的數量,結果如下:

3. 結果新建了兩個資料夾,劉亦菲和劉德華。

4. 資料夾裡的內容如下:

三分鐘帶你讀懂 BERT

作者 suleiman khan,ph.d.翻譯 胡瑛皓 stone豪 校對 醬番梨 審核 詹森 李加薪 整理 立魚王 由谷歌公司出品的用於自然語言理解的預訓練bert演算法,在許自然語言處理的任務表現上遠遠勝過了其他模型。bert演算法的原理由兩部分組成,第一步,通過對大量未標註的語料進行非監督的...

沉默三分鐘

網上見此真情之文,藉以自表 原文 http www.hecaitou.net p 3018 沉默三分鐘是心祭。那麼多年了,國旗終於為平民而降。那麼多天了,全民哀悼終於實現。與此同時,火炬停止傳遞,因為這不是乙個歡慶的時刻。很多年後回顧2008年,我 也許寧可它從日曆中消失。還沒有哪一年和今年一樣,才...

三分鐘帶你看懂prototype原型 ES6高階

1.prototype 定義 在js中的類的實現是基於prototype的,基於原型的繼承比基於類的繼承在概念上更為簡單 乙個新物件可以繼承乙個舊物件的屬性 2.new 建構函式 很短很簡單,要看完嗷 function star uname,age var ldh newstar 劉德華 18 va...