阿里雲新人賽惡意程式檢測專案實踐總結

比賽介紹：使用自然語言處理的方法對惡意程式的行為(api呼叫序列)進行分析，實現對惡意程式鑑別及分類。

1)資料預處理：格式轉換csv->txt->pkl，根據fileid分組資料，排序後生成api序列，用於訓練；

2)資料分析及視覺化：主要是資料分布分析，包括惡意程式類別分布分析、呼叫api的類別及頻率分析，訓練集與測試集分布差異分析(計算交叉熵)等，

得出結論：此任務訓練集與測試集分布差異不大，惡意程式型別更多是與api呼叫序列有關，與api類別及api呼叫次數關係不大；

3)模型訓練及測試：使用了ngram，tf-idf等方法，使用word2vec訓練了詞向量，xgboost進行了整合學習，並使用了n折交叉驗證。

心得：ngram比tf-idf更適合於此任務，

原因在於idf是一種試圖抑制噪音的加權，單純地認為文字頻率小的單詞就越重要，文字頻率大的單詞就越無用，而對於此任務來說，出現頻率小的api也是很有用的。

4)線上成績：0.472587，129名(2019-11-04)

【新人賽】阿里雲惡意程式檢測 -- 實踐記錄10.13 - google colab連線 / 資料簡單檢視 / 模型訓練

【新人賽】阿里雲惡意程式檢測 -- 實踐記錄10.20 - 資料預處理 / 訓練資料分析 / tf-idf模型調參

【新人賽】阿里雲惡意程式檢測 -- 實踐記錄10.27 - tf-idf模型調參 / 資料視覺化

【新人賽】阿里雲惡意程式檢測 -- 實踐記錄11.3 - n-gram模型調參

【新人賽】阿里雲惡意程式檢測 -- 實踐記錄11.10 - xgboost學習 / **閱讀、調參經驗總結

【新人賽】阿里雲惡意程式檢測 -- 實踐記錄 11.24 - word2vec模型 + xgboost

天池主頁： yenchiang-阿里天池

部落格主頁：yanqiang-

github主頁：yanqiangwang-github

阿里雲伺服器存在惡意挖礦程式

阿里雲發了很多簡訊。進入伺服器，發現速度緩慢。輸入 top命令檢視cpu利用率，發現被佔滿。networkservice sysupdate這兩個程式。netstat anop 也能查詢到很多 networkservice的程式用tcp在執行，首先kill掉上述程序，但是沒有卵用，還是很卡，top命...

阿里雲伺服器購買指南新人必看

下面我來給大家展示阿里雲伺服器購買指南第一步首先，在瀏覽器上面找到阿里雲伺服器的官網，如圖第二步進人官網之後，選擇自己想要的伺服器，如第三步選擇立即購買之後，會看到基礎配置和自定義配置兩種選擇，為了更好更清楚的使用雲伺服器，本人推薦自定義配置。基礎配置分為入門型基礎型通用型和理想...

阿里天池新人賽之街景字元識別（1）

正式賽時間 2020.5.14 2020.6.24 比賽所有的資料訓練集驗證集和測試集的標註使用json格式，並使用檔名進行索引。如果乙個檔案中包括多個字元，則使用列表將字段進行組合。賽題思路分析賽題本質是分類問題，需要對的字元進行識別。但賽題給定的資料中不同中包含的字元數量不等，如下圖所...

阿里雲新人賽 惡意程式檢測 專案實踐總結

阿里雲伺服器存在惡意挖礦程式

阿里雲伺服器購買指南 新人必看

阿里天池新人賽 之街景字元識別（1）

相關推薦

阿里雲新人賽惡意程式檢測專案實踐總結

阿里雲伺服器購買指南新人必看

阿里天池新人賽之街景字元識別（1）