阿里雲新人賽 惡意程式檢測 專案實踐總結

2021-10-19 04:17:59 字數 945 閱讀 1407

比賽介紹:使用自然語言處理的方法對惡意程式的行為(api呼叫序列)進行分析,實現對惡意程式鑑別及分類。

1)資料預處理:格式轉換csv->txt->pkl,根據fileid分組資料,排序後生成api序列,用於訓練;

2)資料分析及視覺化:主要是資料分布分析,包括惡意程式類別分布分析、呼叫api的類別及頻率分析,訓練集與測試集分布差異分析(計算交叉熵)等,

得出結論:此任務訓練集與測試集分布差異不大,惡意程式型別更多是與api呼叫序列有關,與api類別及api呼叫次數關係不大;

3)模型訓練及測試:使用了ngram,tf-idf等方法,使用word2vec訓練了詞向量,xgboost進行了整合學習,並使用了n折交叉驗證。

心得:ngram比tf-idf更適合於此任務,

原因在於idf是一種試圖抑制噪音的加權,單純地認為文字頻率小的單詞就越重要,文字頻率大的單詞就越無用,而對於此任務來說,出現頻率小的api也是很有用的。

4)線上成績:0.472587,129名(2019-11-04)

【新人賽】阿里雲惡意程式檢測 -- 實踐記錄10.13 - google colab連線 / 資料簡單檢視 / 模型訓練

【新人賽】阿里雲惡意程式檢測 -- 實踐記錄10.20 - 資料預處理 / 訓練資料分析 / tf-idf模型調參

【新人賽】阿里雲惡意程式檢測 -- 實踐記錄10.27 - tf-idf模型調參 / 資料視覺化

【新人賽】阿里雲惡意程式檢測 -- 實踐記錄11.3 - n-gram模型調參

【新人賽】阿里雲惡意程式檢測 -- 實踐記錄11.10 - xgboost學習 / **閱讀、調參經驗總結

【新人賽】阿里雲惡意程式檢測 -- 實踐記錄 11.24 - word2vec模型 + xgboost

天池主頁: yenchiang-阿里天池

部落格主頁:yanqiang-

github主頁:yanqiangwang-github

阿里雲伺服器存在惡意挖礦程式

阿里雲發了很多簡訊。進入伺服器,發現速度緩慢。輸入 top命令檢視cpu利用率,發現被佔滿。networkservice sysupdate這兩個程式。netstat anop 也能查詢到很多 networkservice的程式用tcp在執行,首先kill掉上述程序,但是沒有卵用,還是很卡,top命...

阿里雲伺服器購買指南 新人必看

下面我來給大家展示 阿里雲伺服器購買指南 第一步 首先,在瀏覽器上面找到阿里雲伺服器的官網,如圖 第二步 進人官網之後,選擇自己想要的伺服器,如 第三步 選擇立即購買之後,會看到基礎配置和自定義配置兩種選擇,為了更好更清楚的使用雲伺服器,本人推薦自定義配置。基礎配置 分為入門型 基礎型 通用型和理想...

阿里天池新人賽 之街景字元識別(1)

正式賽時間 2020.5.14 2020.6.24 比賽 所有的資料 訓練集 驗證集和測試集 的標註使用json格式,並使用檔名進行索引。如果乙個檔案中包括多個字元,則使用列表將字段進行組合。賽題思路分析 賽題本質是分類問題,需要對的字元進行識別。但賽題給定的資料中不同中包含的字元數量不等,如下圖所...