學校官網資料的爬取

2021-09-10 12:55:31 字數 1044 閱讀 9879

import requests

import re

import bs4

from bs4 import beautifulsoup as bs

for i in range(1,11):#獲取11頁的新聞資料

if i==1:

url = ""

else:

url=""+str(i)+".html"

r=requests.get(url)#獲取每一頁的鏈結

r.encoding='utf-8'#轉化編碼格式

soup=bs(r.text,'html.parser')#使用beautifulsoup對資料進行格式化處理

a=soup.select('.news-list li a ')#獲取html中的新聞頁所在的a標籤

for j in a:

w=j.get('href')#獲取鏈結

w1=requests.get(w)

w1.encoding='utf-8'#轉換編碼格式

soup=bs(w1.text,'html.parser')

c=soup.select('.show-content')

d=c[0].get_text()#獲取文字

path=r"c:\users\administrator\desktop\zcy\text"#設定儲存位址

f=open(path+"\\"+w.split('/')[-1]+'.txt','a+',encoding='utf-8')#開啟檔案

f.write(d)#把資料寫進檔案

f.close()#關閉

e =soup.select('div[style="text-align: center;"] img')#獲取所在標籤

for z in e:

r3=z.get('src')

r4=requests.get(r3)

f=open(path1+"\\"+r3.split('/')[-1],'wb')

f.write(r4.content)

r.close()

爬取某學校官網通知

需求 有時候對於學生黨來說,每次大考之後,查分數都是特別心急,特別是對於學校官網的通知等,本筆記主要關注這一點,以下是實現內容。使用 urllib 和 beautifulsoup 庫實現 import urllib.request import urllib.parse from bs4 impor...

利用Python網路爬蟲爬取學校官網十條標題

利用python網路爬蟲爬取學校官網十條標題 案例 author j date 2018 03 06 匯入需要用到的庫檔案 import urllib.request import reimport pymysql 建立乙個類用於獲取學校官網的十條標題 class getnewstitle 建構函式...

抓取學校官網資訊

import re import requests import re import requests def getpages url headers r requests.get url,headers headers r.raise for status return r.text def g...