Python爬蟲練習第一章 每60s重新整理

2021-07-26 04:47:08 字數 1165 閱讀 8004

作為乙個吾愛的忠實粉,我最喜歡的就是成天重新整理吾愛的精品區,看看有啥新鮮好玩的軟體。

此次需要用到4個模組

首先還是先貼上源**為敬

#coding=utf-8

import requests

import re

import time

import random

def wuai():

url=""

a=requests.get(url=url,headers=headeraa)

print "響應頭檢測"

print a.status_code

print '****************************************='

print "精品軟體"

pipei=re.findall('xst">(.*?)',a.content)

for xinde in pipei:

print xinde

print "一共有",len(pipei),"個精品,天哪居然有這麼多!吃驚!"

for i in range(1,99999):

wuai()

time.sleep(60)

********************==分析區*************************====

此次需要用到4個模組

1.requests  

傳送網路請求

2.re  

正則匹配

3.time  

延時處理

4. random  

迴圈處理

首先還是先定義乙個函式吧,沃茨級說過這麼一句話"這世上沒什麼事不是建立乙個函式不能解決的,如果不能,那就建立兩個。"

定義url的請求的網頁鏈結

定義請求頭(防防爬蟲防護,是的,這麼說有點二但是事實確實如此)

變數a即為傳送包含了rul+headers的請求

a.status_code 為響應頭 200 為正常訪問

正則匹配出需要的標題 .*? 是最常用的匹配中間全段

最後逐行輸出

迴圈99999次後停止

執行函式

延遲60s後重複執行

來看看效果圖

編譯成了exe 可以直接執行 無需再配置python環境

爬蟲第一章

爬蟲基礎 什麼是爬蟲?爬蟲是通過程式模擬瀏覽器上網,從網上獲取資料的過程.爬蟲的分類 通用爬蟲 爬取一整個頁面的資料.聚焦爬蟲 爬取頁面中指定的區域性資料 增量式爬蟲 檢測 中資料更新的情況,爬取的是 中最新更新出來的資料.什麼是反爬機制?製作時設定的一系列阻止爬蟲程式進行的阻礙,就是反爬機制,反爬...

python網路爬蟲(第一章)

內容來自於o reilly 人民郵電出版社 的 python網路爬蟲權威指南 此部落格僅用於記錄學習,方便以後使用 目前本系列文章 python網路爬蟲筆記 更新情況 第一章 本文 第二章 python網路爬蟲 第二章 簡單例項 python網路爬蟲 簡單例項 print title 1 urlli...

第一章練習

1.用student使用者登陸系統圖形介面 2.開啟乙個bash 3.修改student的密碼,把密碼更新成 t3st1ngtlme 主機字母和數字 4.顯示當前系統時間 root localhost desktop date 5.顯示當前系統時間,顯示格式為 小時 分鐘 秒 am pm am pm...