爬蟲小專案

#將爬取到的資料儲存在csv檔案中

#由於習慣作者會將獲取到的資料儲存然後在儲存的檔案中進行匹配這樣會降低程式執行時間

'''import requests
from lxml import html
from bs4 import beautifulsoup
url = ''
headers = 
res = requests.get(url=url,headers=headers)
#解決獲取到的原始碼中文字元顯示問題
res.encoding = 'utf8'
print(res.text)
# etree = html.etree
# conts = etree.html(res.text)
# print(conts)
f = open('best_college.html','w')
f.write(res.text)
f.close()'''
#爬取大學排名網中的大學排名資料並儲存在csv檔案中
from lxml import html
f = open('best_college.html','r')
conts = f.read()
# print(conts)
f.close()
etree = html.etree
cont = etree.html(conts)
f = open('school_sort.csv','a')
s1 = cont.xpath("//thead/tr/th/text()|//thead/th/text()")
# print(s1)
#使用列表內的遍歷方式進行刪除操作
s4 = [i2.strip() for i2 in s1 if i2.strip != '']
print(s4)
s5 = str(s4).replace("'",'').replace('[','').replace(']','') + '\n'
print(s5)
f.write(s5)
s2 = cont.xpath("//tbody/tr/td[1]/text()|//tbody/tr/td/div/text()|//tbody/tr/td[3]/text()|//tbody/tr/td[4]/text()|//tbody/tr/td[5]/text()")
# print(s2)
s3 = 
for i in range(0,len(s2),5):
# print(s3)
for i1 in s3:
# print(i1)
i5 = str(i1).replace('[','').replace(']','').replace("'",'') + '\n'
print(i5)
f.write(i5)
f.close()

python2 7爬蟲實戰小專案

爬蟲原理和思想本專案實現的基本目標在捧腹網中，把搞笑的都爬下來，注意不需要爬取頭像的，同時，將命好名放在當前的img檔案中。爬蟲原理和思想爬蟲涉及到額度基本知識 1 導入庫模組該是用於讀取網頁 exp 使用urllib.urlopen 開啟捧腹網使用read 讀取，如比較龐大，也可以...

爬蟲小專案京東月餅銷量分析

月餅銷量資料分析開發環境 python3.7 pycharm selenium csv 開發工具 selenium工具的使用結構化的資料解析 csv資料儲存相容性程式流程 import csv import time from selenium import webdriver 下面的都是...

前端小專案

全部42區段子愛了你問我答註冊登入最熱最新人類發布即時順序 24小時 3天發布人們都說桂林山水甲天下。我們乘著木船蕩漾在漓江上，來觀賞桂林的山水。人們都說桂林山水甲天下。我們乘著木船蕩漾在漓江上，來觀賞桂林的山水。人們都說桂林山水甲天下。我們乘著木船蕩漾在漓江上，來觀賞桂林的山水...

爬蟲小專案

python2 7爬蟲實戰小專案

爬蟲小專案 京東月餅銷量分析

前端 小專案

相關推薦

爬蟲小專案京東月餅銷量分析

前端小專案