爬蟲小專案

2021-09-23 13:27:09 字數 1477 閱讀 9644

#將爬取到的資料儲存在csv檔案中

#由於習慣  作者會將獲取到的資料儲存  然後在儲存的檔案中進行匹配  這樣會降低程式執行時間

'''import requests

from lxml import html

from bs4 import beautifulsoup

url = ''

headers =

res = requests.get(url=url,headers=headers)

#解決獲取到的原始碼中文字元顯示問題

res.encoding = 'utf8'

print(res.text)

# etree = html.etree

# conts = etree.html(res.text)

# print(conts)

f = open('best_college.html','w')

f.write(res.text)

f.close()'''

#爬取大學排名網中的大學排名資料並儲存在csv檔案中

from lxml import html

f = open('best_college.html','r')

conts = f.read()

# print(conts)

f.close()

etree = html.etree

cont = etree.html(conts)

f = open('school_sort.csv','a')

s1 = cont.xpath("//thead/tr/th/text()|//thead/th/text()")

# print(s1)

#使用列表內的遍歷方式進行刪除操作

s4 = [i2.strip() for i2 in s1 if i2.strip != '']

print(s4)

s5 = str(s4).replace("'",'').replace('[','').replace(']','') + '\n'

print(s5)

f.write(s5)

s2 = cont.xpath("//tbody/tr/td[1]/text()|//tbody/tr/td/div/text()|//tbody/tr/td[3]/text()|//tbody/tr/td[4]/text()|//tbody/tr/td[5]/text()")

# print(s2)

s3 =

for i in range(0,len(s2),5):

# print(s3)

for i1 in s3:

# print(i1)

i5 = str(i1).replace('[','').replace(']','').replace("'",'') + '\n'

print(i5)

f.write(i5)

f.close()

python2 7爬蟲實戰小專案

爬蟲原理和思想 本專案實現的基本目標 在捧腹網中,把搞笑的都爬下來,注意不需要爬取頭像的,同時,將命好名放在當前的img檔案中。爬蟲原理和思想 爬蟲涉及到額度基本知識 1 導入庫 模組 該 是用於讀取網頁 exp 使用urllib.urlopen 開啟捧腹網 使用read 讀取,如 比較龐大,也可以...

爬蟲小專案 京東月餅銷量分析

月餅銷量資料分析 開發環境 python3.7 pycharm selenium csv 開發工具 selenium工具的使用 結構化的資料解析 csv資料儲存 相容性 程式流程 import csv import time from selenium import webdriver 下面的 都是...

前端 小專案

全部42區 段子愛了 你問我答 註冊登入 最熱最新 人類發布 即時順序 24小時 3天發布 人們都說 桂林山水甲天下。我們乘著木船蕩漾在漓江上,來觀賞桂林的山水。人們都說 桂林山水甲天下。我們乘著木船蕩漾在漓江上,來觀賞桂林的山水。人們都說 桂林山水甲天下。我們乘著木船蕩漾在漓江上,來觀賞桂林的山水...