安徽科技學院 信網學院網路文化節 徐璐瑤

2021-10-07 06:28:35 字數 1073 閱讀 9603

#呼叫函式

import requests

import re

#找到要爬取**的鏈結

url=『

#更改爬蟲的頭部資訊,防止有些**禁止爬蟲爬取

headers=

#傳送請求

r=requests.get(url,headers=headers)

#獲取網頁的狀態碼

t=r.status_code

#獲取網頁內容

html=r.text

#狀態碼等於200表示能夠請求鏈結

if t==200:

#獲取網頁源**提取(瀏覽器**網頁右鍵找到檢視網頁源**)獲取每個章節的url鏈結

urls=re.findall(』』,html,re.s)

#去掉提取中多餘的部分

urls=urls[1:]

i=1#遍歷列表中的鏈結

for url in urls:

#向每個鏈結傳送請求

a=requests.get(url)

#獲取每個連線的網頁內容

text=a.text

#刪除每個網頁中不是文字的內容

text=re.sub(』

\u3000\u3000|

\r\n |\r\n

『,』』,text)

#提取所要提去的文字

text=re.findall(』

(.*?)

』,text,re.s)

#正規表示式提取出來的是列表形式無法寫入,所以把它轉化成字串形式

text=str(text)

try:

#把要爬取的內容寫入文字文件

with open(str(i)+』.text』,『w』) as f:

f.write(text)

#關閉文件

f.close()

i=i+1

except:

print(『請求錯誤』)

公升級pip 輸入指令 python -m pip install --upgrade pip

安裝requests 指令 pip install requests

安徽科技學院 信網學院網路文化節 劉洪江

import sys import time books 圖書資料 users 預設使用者資料 def menu print 40 print 歡迎來到圖書管理系統 print 40 print 請輸入你想要進行的操作 print 1 註冊新使用者 print 2.使用已註冊的賬號進行登陸 prin...

安徽科技學院 信網學院網路文化節 丁舒

程式設計 針對需求做如下設計 1 資料結構設計 假設學生學分管理程式中的資訊結構是 學號 最多11個數字 姓名 最多7個字元 班級 最多11個字元 typedef struct student 定義學生學分結構 stu 2 模組設計 本任務的主要演算法是一組對學生學分管理的的操作函式,所以 錄入學分...

安徽科技學院 信網學院網路文化節 曹健

include include include int weights 26 char alphabet 26 define length 26 define n 100 typedef struct htnode,huffmantree 哈夫曼節點的型別 typedef char huffmanc...