python爬蟲(爬取導師資訊)

2022-09-29 00:27:19 字數 2863 閱讀 3158

直譯器(我下的是3.8.2版本):

pycharm(我下的是2019.3.3版本):

注意:python安裝時要勾選

pycharm安裝時這四個全選上

檢查python是否安裝好可以在cmd命令中輸入python,出現下圖即可

2.爬取網頁資訊(以浙工大為例)

# -*- codeing = utf-8 -*-#@time : 

2022/2/20

16:44

#@auther : 葉丹薇

#@file : spider.py

#@software: pycharm

from

bs4 import beautifulsoup #網頁解析

import re #正則

import urllib.request,urllib.error #制定url 獲取網頁資料

import sqlite3 #資料庫

import xlwt #excel

def main():

baseurl="

"#1.爬取網頁

datalist=getdata(baseurl)

s**epath="

導師.xls

"#3儲存

s**edata(datalist,s**epath)

findname=re.compile(r'

(.*?)

')#finddire=re.compile(r'

研究方向:(.*?)

')#"

#">空間資訊計算研究所

findcoll=re.compile(r'

(.*?)')

#1.爬取網頁

def getdata(baseurl):

datalist=

for j in range(35,50

): url=baseurl+str(j)

html=askurl(url)

if(html==''):continue#2

.逐一解析資料

soup=beautifulsoup(html,"

html.parser")

item0=soup.find_all('

div',id="

boxtitle3")

item0=str(item0)

colle = re.findall(findcoll,item0)[1

]

for item in soup.find_all('

div',style="

width:100%; float:left

"):#查詢符合要求的字串

item=str(item)

teacher=re.findall(findname,item)

director =re.findall(finddire, item)

for i in

range(len(teacher)):

data =

# print(data)

# print(datalist)

return

datalist

#得到指定url的網頁內容

def askurl(url):

#模擬瀏覽器頭部,進行偽裝

head=

request=urllib.request.request(url,headers=head)#請求

html=""

try:

response=urllib.request.urlopen(request)#響應

html=response.read().decode("

utf-8")

# print(html)

except urllib.error.urlerror

ase:

#print(

"這頁沒有內容")

html=''

return

html

#儲存資料

def s**edata(datalist,s**epath):

book=xlwt.workbook(encoding="

utf-8

")#建立word物件

sheet=book.add_sheet('

老師',cell_overwrite_ok=true)#建立sheet表

col=("

姓名","

研究所","

研究方向")

for i in range(0,3

): sheet.write(

0,i,col[i])

for i in range(0

,len(datalist)):

#print(

"第%d條

"%(i+1

)) data=datalist[i]

for j in range(0,3

): sheet.write(i+1

,j,data[j])

book.s**e(s**epath)

if __name__=="

__main__":

main()

view code

Python簡單爬蟲(爬取天氣資訊)

初學python,學到python爬蟲時在網上找資料,發現找到的大部分都是前部分內容對運作方式介紹,然後就直接上 了,這樣對像我一樣的小白來說比較困難,的注釋較少,部分 塊沒有詳細說明運作方式和具體作用,所以寫此筆記方便別人和自己以後進行學習檢視。作業系統window python2.7.10 wi...

python爬蟲爬取豆瓣電影資訊

我們準備使用python的requests和lxml庫,直接安裝完之後開始操作 目標爬取肖申克救贖資訊 傳送門 導入庫import requests from lxml import etree 給出鏈結 url 獲取網頁html前端 一行搞定,在requests中已經封裝好了 data reque...

python爬蟲爬取騰訊招聘資訊 (靜態爬蟲)

環境 windows7,python3.4 親測可正常執行 1 import requests 2from bs4 import beautifulsoup 3from math import ceil 45 header 78 9 獲取崗位頁數 10def getjobpage url 11 re...