初學大資料之如何選擇機器學習演算法

最近在國外**看到一篇不錯的文章，所以就翻譯過來給大家分享一下。主要介紹初學者怎麼選擇機器學習演算法,希望對各位初學者有幫助。

原文如下:

乙個初學者面臨各種機器學習演算法的典型問題是「我應該使用哪種演算法？」問題的答案取決於許多因素，包括：

即使是經驗豐富的資料科學家也不能在嘗試不同的演算法之前，判斷哪種演算法會最好。我們並不主張採取乙個完整的方法，但是我們希望根據一些明確的因素，為哪些演算法首先提供一些指導。

該機器學習演算法備忘表幫助您從各種機器學習演算法選擇找到適合您的具體問題適當的演算法。本文將引導您完成如何使用工作表的過程。

由於該作弊表是專為初學者資料科學家和分析師設計的，所以在討論演算法時，我們將作出一些簡化的假設。

這裡推薦的演算法來自於資料科學家和機器學習專家和開發人員的編譯反饋和提示。有幾個問題我們還沒有達成協議，對於這些問題，我們試圖突出共同點，調和差異。

稍後將會新增其他演算法，因為我們的庫增長以包含更完整的一組可用方法。

將圖表上的路徑和演算法標籤讀為「if then use 」。例如：

有時候會有乙個以上的分支機構適用，而其他的時間也不會是完美的。重要的是要記住，這些路徑旨在作為經驗法則建議，因此有些建議並不準確。我談到的幾位資料科學家說，找到最好演算法的唯一方法就是嘗試所有的演算法。

本節提供最受歡迎的機器學習型別的概述。如果您熟悉這些類別，並希望繼續討論特定的演算法，則可以跳過本節並轉到下面的「何時使用特定演算法」。

監督學習

受監督的學習演算法基於一組示例進行**。例如，可以使用歷史銷售來估計未來**。通過監督學習，您有乙個輸入變數，由標記的訓練資料和期望的輸出變數組成。您使用演算法分析訓練資料，以學習將輸入對映到輸出的功能。這個推斷功能通過從訓練資料推廣來**未知情況下的結果來對映新的未知示例。

監督學習的挑戰是標註資料可能是昂貴和耗時的。如果標籤有限，您可以使用未標記的示例來增強監督學習。因為在這種情況下機器沒有被完全監督，所以我們說機器是半監督的。使用半監督學習，您可以使用少量標籤資料的未標記示例來提高學習準確性。

執行無監督學習時，機器將呈現完全未標記的資料。被要求發現基礎資料的內在模式，如聚類結構，低維流形或稀疏樹和圖。

加強學習根據環境的反饋分析和優化**人的行為。機器嘗試不同的場景來發現哪些行為產生最大的回報，而不是被告知採取哪些行動。試驗和錯誤和延遲獎勵將強化學習與其他技術區分開來。

當提供資料集時，首先要考慮的是如何獲得結果，無論這些結果如何。初學者傾向於選擇易於實現的演算法，並可以快速獲得結果。這樣做很好，只要這只是過程的第一步。獲得一些結果並熟悉資料後，您可以花費更多時間使用更複雜的演算法來加強對資料的理解，從而進一步改進結果。

即使在這個階段，最好的演算法可能不是實現最高報告精度的方法，因為演算法通常需要仔細調整和廣泛的訓練才能獲得最佳的可實現效能。