簡單網頁爬蟲

2022-08-11 04:21:10 字數 1805 閱讀 2064

目錄安裝requests模組:pip install requests

import re        	# 匯入re模組

import requests # 匯入request模組

response = requests.get('') # 獲取網頁內容源**

data = response.text # 將網頁內容源**存放在文字格式記錄data檔案中

result_list = re.findall('(.*?)

',data) # 找到要爬取的內容(.*?)前後的共同點寫入列表

'''與人a1人間的信任,就像是紙片,一旦破損,就不會再回到原來的樣子。

(.*?)

一年奔波,塵緣遇了誰;一句珍重,天涯別了誰;一點靈犀,憑欄憶了.

(.*?)

'''for result in result_list:

print(result) # 分別讀取

import re

import requests

count= 0

for i in range(2,4):

respone = requests.get(f'') #獲取**源**內容

data = respone.text #文字形式記錄

# print(data)

result_list = re.findall('src="(.*?)"',data) #從data中獲取所要爬的共同的東西()

for result in result_list:

if result.endswith('jpg'): # 判斷挑選需要的的格式

# print(result)

img_respone = requests.get(result) # 獲取的內容(二進位制記錄的內容)

img_name = result.split('/')[-1] # 每次迴圈分別記錄名稱

img_data = img_respone.content # 以字元形式記錄

# print(img_data)

with open(img_name,'wb') as f: # 建立名字為img_name的並開啟

f.write(img_data) # 以字元形式寫入

f.flush()

count+=1

print(f'爬取了張')

import re

import requests

response = requests.get('') # 獲取****

data = response.text # 文字形式記錄網頁**

count = 0

# print(data)

for result in result_list:

# print(result)

if result.startswith('/video'):

# print(result)

# print(result)

# src="" >< / video >(????)

# flvurl: ""

# flvurl: ""

# print(video_url)

video_response = requests.get(video_url[0]) # video_url是包含乙個元素的列表

with open(video_name, 'wb') as fw: # 開啟檔案

fw.flush()

count += 1

php網頁簡單爬蟲

str replace 函式以其他字元替換字串中的一些字元 區分大小寫 該函式必須遵循下列規則 注釋 該函式區分大小寫。請使用 str ireplace 函式執行不區分大小寫的搜尋。注釋 該函式是二進位制安全的。初始化curl curl curl init 這是你想用php取回的url位址。你也可以...

Java簡單網頁爬蟲

簡單原理就是使用apache訪問網頁,獲取網頁內容,然後根據匹配的開始和結束位置,得到想要的結果 首先需要引入apache的幾個包 import org.apache.http.util.entityutils 然後設定url,需要獲取的開始和結束位置的html,具體位置可以通過檢視網頁源 得到 p...

網頁版簡單爬蟲

爬取requests beautifulsoup import requests import mysqldb from bs4 import beautifulsoup url 瀏覽器獲取url defget page url response requests.get url soup beau...