爬蟲 爬專利摘要及申請資訊

2021-10-06 23:05:32 字數 1725 閱讀 8171

import requests

from bs4 import beautifulsoup as bs

import re

import time

# 列表轉成字串

defget_string

(string_list)

: string =

""for s in string_list:

s = s.replace(

'\r',''

) s = s.replace(

'\n',''

) s = s.replace(

' ','')

iflen

(str

(s))

>2:

string += s[1:

-1]return string

# cookie 自己補充

# 得到html的字串

defget_html

(num)

:# num : 頁數

html_list =

head =

for i in

range

(num)

: time.sleep(2)

# 防止訪問太頻繁,設定等待兩秒

r = requests.get(

""+str

(i *10)

,headers=head)

)return html_list

# 得到摘要及申請資訊列表

defget_info

(htmllist)

: abstract_l =

name_l =

for html in htmllist:

name_list = html.find_all(class_ =

"patentauthorblock"

) abstract_list = html.find_all(class_ =

"patentcontentblock"

) s = re.

compile

(r'>.*?

, re.s)

iflen

(name_list)

==len

(abstract_list)

:for i in

range

(len

(name_list)):

abstract = get_string(re.findall(s,

str(abstract_list[i]))

) name = get_string(re.findall(s,

str(name_list[i]))

)return abstract_l,name_l

# 獲取3頁

88 爬蟲爬取span資訊

我們在爬取網頁之後 有大量的無用的資訊 所以我們需要用正規表示式去篩選一下 我們先來試試普通爬取 var channel make chan bool func main func startspider start int,end int for i start i end i func spid...

python爬蟲(爬取導師資訊)

直譯器 我下的是3.8.2版本 pycharm 我下的是2019.3.3版本 注意 python安裝時要勾選 pycharm安裝時這四個全選上 檢查python是否安裝好可以在cmd命令中輸入python,出現下圖即可 2.爬取網頁資訊 以浙工大為例 codeing utf 8 time 2022 ...

爬蟲反爬機制及反爬策略

參考 爬蟲是一種模擬瀏覽器對 發起請求,獲取資料的方法。簡單的爬蟲在抓取 資料的時候,因為對 訪問過於頻繁,給伺服器造成過大的壓力,容易使 崩潰,因此 維護者會通過一些手段避免爬蟲的訪問,以下是幾種常見的反爬蟲和反反爬蟲策略 爬蟲與反爬蟲,這相愛相殺的一對,簡直可以寫出一部壯觀的鬥爭史。而在大資料時...