初學大資料之如何選擇機器學習演算法

2021-07-30 14:28:08 字數 1437 閱讀 1497

最近在國外**看到一篇不錯的文章,所以就翻譯過來給大家分享一下。主要介紹初學者怎麼選擇機器學習演算法,希望對各位初學者有幫助。

原文如下:

乙個初學者面臨各種機器學習演算法的典型問題是「我應該使用哪種演算法?」問題的答案取決於許多因素,包括:

即使是經驗豐富的資料科學家也不能在嘗試不同的演算法之前,判斷哪種演算法會最好。我們並不主張採取乙個完整的方法,但是我們希望根據一些明確的因素,為哪些演算法首先提供一些指導。

機器學習演算法備忘表幫助您從各種機器學習演算法選擇找到適合您的具體問題適當的演算法。本文將引導您完成如何使用工作表的過程。

由於該作弊表是專為初學者資料科學家和分析師設計的,所以在討論演算法時,我們將作出一些簡化的假設。

這裡推薦的演算法來自於資料科學家和機器學習專家和開發人員的編譯反饋和提示。有幾個問題我們還沒有達成協議,對於這些問題,我們試圖突出共同點,調和差異。

稍後將會新增其他演算法,因為我們的庫增長以包含更完整的一組可用方法。

將圖表上的路徑和演算法標籤讀為「if then use 」。例如:

有時候會有乙個以上的分支機構適用,而其他的時間也不會是完美的。重要的是要記住,這些路徑旨在作為經驗法則建議,因此有些建議並不準確。我談到的幾位資料科學家說,找到最好演算法的唯一方法就是嘗試所有的演算法。

本節提供最受歡迎的機器學習型別的概述。如果您熟悉這些類別,並希望繼續討論特定的演算法,則可以跳過本節並轉到下面的「何時使用特定演算法」。

監督學習

受監督的學習演算法基於一組示例進行**。例如,可以使用歷史銷售來估計未來**。通過監督學習,您有乙個輸入變數,由標記的訓練資料和期望的輸出變數組成。您使用演算法分析訓練資料,以學習將輸入對映到輸出的功能。這個推斷功能通過從訓練資料推廣來**未知情況下的結果來對映新的未知示例。

監督學習的挑戰是標註資料可能是昂貴和耗時的。如果標籤有限,您可以使用未標記的示例來增強監督學習。因為在這種情況下機器沒有被完全監督,所以我們說機器是半監督的。使用半監督學習,您可以使用少量標籤資料的未標記示例來提高學習準確性。

執行無監督學習時,機器將呈現完全未標記的資料。被要求發現基礎資料的內在模式,如聚類結構,低維流形或稀疏樹和圖。

加強學習根據環境的反饋分析和優化**人的行為。機器嘗試不同的場景來發現哪些行為產生最大的回報,而不是被告知採取哪些行動。試驗和錯誤和延遲獎勵將強化學習與其他技術區分開來。

當提供資料集時,首先要考慮的是如何獲得結果,無論這些結果如何。初學者傾向於選擇易於實現的演算法,並可以快速獲得結果。這樣做很好,只要這只是過程的第一步。獲得一些結果並熟悉資料後,您可以花費更多時間使用更複雜的演算法來加強對資料的理解,從而進一步改進結果。

即使在這個階段,最好的演算法可能不是實現最高報告精度的方法,因為演算法通常需要仔細調整和廣泛的訓練才能獲得最佳的可實現效能。

機器學習之資料清洗和特徵選擇

賠率 公平賠率 莊家期望收益為零,沒有利潤 實際賠率 莊家在公平賠率基礎上乘以某小於1的係數,得到真實賠率,其中係數 pandas 用於資料讀取,優勢比numpy強等 庫 fuzzywuzzy 用於資料清洗 pca理論依據 pca降維思想 尋找樣本的主方向u,將m個樣本值投影到某直線l上,得到m個位...

機器學習如何改變大資料管理

機器學習如何改變大資料管理 如今,企業在如何克服商業挑戰方面很少根本性的改變,機器學習 在市場中的應用也是如此。各種型別企業都希望利用機器學習來降低成本,希望獲得更好的成果。這種機器學習的廣泛採用有一些後果,大資料的應用並不是一件容易的事情,當企業的資料管理系統隨著快速發展的演算法而不斷更新時,企業...

資料探勘中機器學習如何選擇合適的演算法

最近看了一些資料,許多細的知識在這裡總結一下,入門者也可以作為乙個參考,關於在資料探勘中我們應該選擇哪種演算法。當然這個問題我在前面的一篇文章中已經有過介紹 官方小紙條,這個參考性是可靠的。這裡的介紹作為乙個更為詳細的補充和說明。補充下面四個小知識 監督學習 利用樣本輸入和期望輸出來學習如何 的技術...