利用Python網路爬蟲爬取學校官網十條標題

2022-03-14 20:28:24 字數 2378 閱讀 2065

利用python網路爬蟲爬取學校官網十條標題

案例**:

#

__author : "j"

#date : 2018-03-06

#匯入需要用到的庫檔案

import

urllib.request

import

reimport

pymysql

#建立乙個類用於獲取學校官網的十條標題

class

getnewstitle:

#建構函式 初始化

def__init__

(self):

self.request = urllib.request.request("

") #

需要爬取的**

#利用正規表示式篩選資料

self.my_re =re.compile(

r'學校要聞.*?

' +r

'"a2" >(.*?).*?

' +r

'"a2" >(.*?).*?

' +r

'"a2" >(.*?).*?

' +r

'"a2" >(.*?).*?

' +r

'"a2" >(.*?).*?

' +r

'"a2" >(.*?).*?

' +r

'"a2" >(.*?).*?

' +r

'"a2" >(.*?).*?

' +r

'"a2" >(.*?).*?

' +r

'"a2" >(.*?).*?

' +r

'院部簡訊')

#建立乙個方法

defget_html(self):

try:

response =urllib.request.urlopen(self.request)

#獲取目標網頁原始碼

#建立乙個函式,利用正則獲取指定標題

defget_titles(self, my_html):

news_titles =re.findall(self.my_re, my_html)

return

news_titles

#建立乙個方法,把獲取到的標題存入mysql資料庫

definto_mysql(self, titles):

for num in range(10):

connection = pymysql.connect(host='

127.0.0.1

', port=3306, user='

root

', password='******

', db='

school',

charset='

utf8')

cursor =connection.cursor()

sql = "

insert into `newstitles` (`title`) values ('

" + titles[0][num] + "')"

cursor.execute(sql)

connection.commit()

cursor.close()

connection.close()

#執行函式的入口

defstart(self):

self.into_mysql(self.get_titles(self.get_html()))

print("

儲存成功!")

#例項化類

s =getnewstitle()

#呼叫方法開始執行

s.start()

效果:

Python 網路爬蟲 爬取表情包

import requests import os import urllib.parse from bs4 import beautifulsoup 函式 判斷表情包是不是0個 def is zero url test requests.get url msg test.content s bea...

python爬蟲爬取網路小說

首先,獲取html頁面並解析,為方便儲存和使用頁面的encoding,直接使用全域性變數 章節名章節名 章節名.從結構可以看出,可以先獲取目錄的頂層標籤 class box 的標籤 然後再獲取該標籤內所有的li標籤即可。由於頁面內有其他的class box 的標籤,因此本次使用soup.find s...

Python爬蟲爬取網路小說

太古神王 txt a encoding utf 8 errors ignore i 1while i 2062 single web web file.readline replace n url single web print url header data requests.get url u...