機器學習的特徵工程

2021-07-24 09:48:01 字數 529 閱讀 6648

在之前學習機器學習技術中,很少關注特徵工程(feature engineering),然而,單純學習機器學習的演算法流程,可能仍然不會使用這些演算法,尤其是應用到實際問題的時候,常常不知道怎麼提取特徵來建模。

特徵是機器學習系統的原材料,對最終模型的影響是毋庸置疑的。

資料特徵會直接影響你使用的**模型和實現的**結果。準備和選擇的特徵越好,則實現的結果越好。

影響**結果好壞的因素: 模型的選擇、可用的資料、特徵的提取 。

優質的特徵往往描述了資料的固有結構。

大多數模型都可以通過資料中良好的結構很好的學習,即使不是最優的模型,優質的特徵也可以得到不錯的效果。優質特徵的靈活性可以讓你使用簡單的模型運算的更快,更容易理解,更容易維護。

優質的特徵可以在使用不是最優的模型引數的情況下得到不錯的**結果,這樣你就不必費力去選擇最適合的模型和最優的引數了。

特徵工程是將原始資料轉化為特徵,更好表示**模型處理的實際問題,提公升對於未知資料的準確性。它是用目標問題所在的特定領域知識或者自動化的方法來生成、提取、刪減或者組合變化得到特徵。

機器學習 特徵工程

老師有多年的網際網路從業經驗,所以講解的過程中結合了很多任務業界的應用,更加的深入淺出。資料採集 資料採集前需要明確採集哪些資料,一般的思路為 哪些資料對最後的結果 有幫助?資料我們能夠採集到嗎?線上實時計算的時候獲取是否快捷?舉例1 我現在要 使用者對商品的下單情況,或者我要給使用者做商品推薦,那...

機器學習 特徵工程

資料和特徵決定了機器學習的上限,而模型和演算法只是逼近這個上限而已。通俗的說,就是盡可能的從原始資料中獲取更多資訊,從而使得 模型達到最佳。簡而言之,特徵工程是乙個把原始資料變成特徵的過程,這些特徵可以很好的描述資料,並且利用它們建立的模型在未知資料上表現效能可以達到最優。實驗結果取決於獲取的資料 ...

機器學習特徵工程

作用 對字典資料進行特徵值化 dictvectorizer語法 例項化了乙個物件 data dict fit transform x print dict get feature names print data return none if name main dictvec 結果 分析 使用di...