爬取牛客題目及對應的題號等資訊

2022-08-22 18:06:11 字數 1305 閱讀 5221

這個例項和上乙個例項差不多,首先我們來到題目列表,觀察一下鏈結可以發現,對於不同頁的題目來說,鏈結只有page變數有所改變,第一頁為1,第二頁為2等。那麼我們可以通過改變page後的值來獲取不同頁的內容。我們觀察一下每一頁內容可以發現,題目資訊都在乙個td標籤內,那我們就可以找出所有的td標籤,取出其中的字串,去掉空字串。然後我們可以發現每五個字串對應乙個題目的資訊,所以我們每五個作為一組進行處理,即可得到每乙個題目的資訊。

**如下:

import

requests

from bs4 import

beautifulsoup

defgethtmltext(url):

try:

headers =

response = requests.get(url, headers=headers)

return

response.text

except

:

return

''def

parsehtml(html):

soup = beautifulsoup(html, '

html.parser')

tds = soup.find_all('td'

) infolist =

info =

cnt =0

for td in

tds:

txt =td.get_text()

txt = txt.split('\n'

) temp =

for text in

txt:

if text == ''

:

continue

if temp ==:

continue

cnt += 1

for t in

temp:

if cnt == 5:

cnt =0

info =

return

infolist

defmain():

base_url = '

'infolist =

for i in range(1, 51):

url = base_url +str(i)

html =gethtmltext(url)

infolist +=parsehtml(html)

for info in

infolist:

print

(info)

main()

牛客網模擬面試的題目1

1 請你談談共享記憶體相關的api sys shm.h中。1 新建共享記憶體shmget int shmget key t key,size t size,int shm key 共享記憶體鍵值,可以理解為共享記憶體的唯一性標記。size 共享記憶體大小 shmflag 建立程序和其他程序的讀寫許可...

Python爬取登入後的OJ練習中的題目資料

備註 python 2.7.12 ubantu 16.04 32位 瀏覽器 firefox 其實是因為想練習一下request登入之後儲存cookies 博主是湖南農業大學的大三學生,因為本校acm較弱 苦笑臉 oj也沒啥人維護,竊以為很容易爬,就拿來練手啦hhhhhhh 找到登入頁面按好f12 然...

牛客網面經題題目及答案總結 資料庫篇

主要有四個特性,acid,原子性 atomicity 一致性 consistency 隔離性 isolation 永續性 durability 索引是用來加快查詢速度的,一般資料庫是使用b 樹來實現的。總體上來說,b 樹在非葉子結點不儲存資料,只在葉子結點儲存。而b樹在葉子結點和非葉子結點都會儲存。...