異常資料的檢測 小白學習報告

2022-07-12 04:18:10 字數 2283 閱讀 7908

這個作業屬於哪個課程

這個作業要求在**

這個作業的目標

用虛擬機器構建伺服器模擬測試並查詢異常流量

我是來自軟體工程2班的雷毅,學號為212006393

我的家庭條件尚可,所以選擇更多出於興趣和自我追求,同時家人和我共同希望能向研發方向發展。

我目前掌握較強的學習能力,能夠在明確目標和一定的指引下做到自我學習;專業知識由於剛步入大一了解較少,所以希望通過豐富知識儲備為未來發展打基礎。

我的 github

我的 github 倉庫

個人選擇虛擬機器 linux 系統自帶的 tcpdump,採用-w的格式儲存為檔案,並通過putty傳至 windows 內的 wireshark,由 ip 等篩選方式得到清理後的資料。

ubuntu 安裝教程

linux 常用命令**

ssh 的開啟

將個人ubuntu系統電腦當作伺服器使用,用win10系統電腦遠端訪問伺服器並且執行matlab**

wireshark常用過濾使用方法

從安裝虛擬機器和 ubuntu 至tcpdump 抓包和資料清洗,面對完全陌生的 linux 系統、抓包和資料分析,遇到了很多麻煩,也一一查證去解決了這些問題,並收穫了有關於此的很多知識。於此同時還有許多瀏覽借閱過的參考文獻無法一一給出,在此深表歉意。

個人採用虛擬機器開啟 ssh 服務,用 linux 系統自帶的 tcpdump 抓包,經轉存後由 wireshark 清洗分析。通過流量圖和 i/o graphs 的分析資料,設定k值和閾值t,並通過篩選確認可疑流量進行單獨驗證。

確定閥值 packets per second(通過資料中心的長時間資料,確定合適的閥值,並由此檢測異常流量)

如圖 40 分鐘的抓包所示,設定閥值為 100 ,並推測於此時遠遠超出為異常流量。(由於缺乏大量資料等條件,只有這個簡陋的模型了)

相較於以上**我也簡單理解了 hash 對大資料量的 top k 問題的處理方式,但如圖是關於 top k 問題的測試,我仍因知識有限不能完全理解或解析抓包資料內報文中的內容,也因此無法通過報文內容的詞頻統計得到異常詞頻從而查詢異常資料;那麼如果正常用這個**的思路來解決問題,我是否應該將 .cap 格式的檔案進行轉碼後進行統計,還是其他的解決方式?

經由本次的學習,我獲知了虛擬機器、linux 系統、抓包、資料分析、top k 演算法的部分資訊,嘗試自行解決遇到的問題,並交出了乙份答卷。我會不斷深入學習並嘗試掌握更多的有關知識,以豐富作為計算機小白的我的知識儲備為未來的深入研究打下基礎。

經了解得知,中小型企業完全交由雲服務防範;大型企業的三重防護中,此為第二層的部分檢測形式,第三層為普通的常規手段專案漏洞檢測,第一層則為內網訪問,遠端vpn模式,隔絕了外人的訪問。

ERP之異常資料檢測

基本稍微上點規模的企業都會有乙個erp運維工程師,erp運維工程師的基本工作包括一項任務 處理erp異常。1 基礎資料或者功能設定沒有設定正確。2 使用人員不細心,誤操作成為錯誤單據 3 erp系統邏輯不健全,沒有完全控制到邏輯 4 企業業務新流程開發 1 一般的操作就是根據錯誤提示,去找原因。2 ...

資料缺失,資料異常,資料標準化的處理方法

一 缺失值產生的原因 缺失值的產生的原因多種多樣,主要分為機械原因和人為原因。機械原因是由於機械原因導致的資料收集或儲存的失敗造成的資料缺失,比如資料儲存的失敗,儲存器損壞,機械故障導致某段時間資料未能收集 對於定時資料採集而言 人為原因是由於人的主觀失誤 歷史侷限或有意隱瞞造成的資料缺失,比如,在...

原創 python使用小記2 異常資料的處理

注 檔案中的異常包括描述性資料 特徵 缺失值 nan 在這裡的解決方法是借用pandas庫 interpolate 使用插值來估計nan 如果index是數字,可以設定引數method value 如果是時間,可以設定method time get dummies對離散型特徵進行one hot編碼 ...