爬蟲實戰 爬取CPU天梯榜單

2021-08-30 15:31:17 字數 909 閱讀 8753

**:

最近女票要買電腦,看了幾款,於是我就幫她看看這幾款的cpu咋樣,就找了乙個cpu天梯排行榜。一瞅發現,榜上有800+個cpu,乙個乙個找,得累死。剛好最近了解了python爬蟲,於是乎,就寫了乙個爬蟲指令碼,把排名和cpu名字爬了並且儲存下來了。

**如下:

import requests        #匯入包

from bs4 import beautifulsoup

res.encoding = 'utf-8' #顯示中文

soup = beautifulsoup(res.text, 'html.parser') #解析html

table = soup.select('#maintable')[0] #爬取id為'maintable'的元素

tbody = table.select('tbody')[0] #爬取tbody標籤的元素

f = open("out.txt","w") #儲存到檔案中

f.write("排名 名稱")

for i in tbody.select('tr'): #遍歷tr標籤

temp = i.select('td') #挑選td標籤

rank = temp[0].text

name = temp[1].text

#print(rank + " " + name)

print("%s %s" %(rank, name), file = f)

儲存成txt檔案後,查某個cpu排行,只要ctrl+f就好啦~~~

不過後來才知道,原來谷歌上的網頁也是可以ctrl+f,進行查詢的。。。。。。。。。

漲姿勢了。。。

Python實戰爬蟲 爬取段子

不管三七二十一我們先導入模組 段子所在的 import re import requests 如果沒這模組執行cmd pip install requests領域 web開發,爬蟲,資料分析,資料探勘,人工智慧 零基礎到專案實戰,7天學習上手做專案 獲取 的內容 段子所在的 import re im...

python爬蟲實戰 爬取豆瓣影評資料

爬取豆瓣影評資料步驟 1 獲取網頁請求 2 解析獲取的網頁 3 提速資料 4 儲存檔案 1 匯入需要的庫 import urllib.request from bs4 import beautifulsoup 隨機數的庫 import random 時間庫 import time 庫 import ...

爬蟲爬取bilibili

1.根據url傳送請求給伺服器,獲取html文字 2.解析html文字,把需要的資料挑出來 3.從html中解析出超連結,繼續爬取其中的頁面 爬蟲的協議b站的爬蟲協議 尾巴加上 robots.txt 獲取相應的api 控制抓取的頻率 import requests url 發起網路請求 respon...