Spark機器學習 Day2 快速理解機器學習

有兩個問題：

機器學習到底是什麼。

大資料機器學習到底是什麼。

人正常思維的過程是根據歷史經驗得出一定的規律，然後在當前情況下根據這種規律來**當前的情況下該怎麼做，這種過程就是乙個機器學習的過程。

我們可以發現，這個過程裡有規律和當前的情況。規律就是模型，當前情況就是當前的資料，會根據當前的情況會根據不同的規律來得出不同的結論來驅動下乙個行為，就是資料驅動的一種決策方式，這和我們程式設計用的指令驅動方式是完全不同的。

機器學習是根據統計學的理論，得出影響我們結果的幾個變數，有應變數和自變數。

例如想**房價，會根據歷史房價波動的因素，判斷哪些會影響房價，得出乙個房價模型，就會根據具體地方和具體時間來**房價，機器學習也是從資料中得出某種模型的。

機器學習其實和人的決策過程是一樣的。

為什麼大資料機器學習特別重要，因為無論建立模型還是得出結果都是資料驅動的過程，而資料驅動顯然在大資料和分布的情況下資料面更多，得出的模型更為合理，當前情況如果有更多的資料，得出的結論會更準確。

所以大資料機器學習已經成為了業界的主流，有著非常廣泛的應用。

dt大資料每天晚上20：00yy頻道現場授課頻道68917580

歸一化將所有資料轉化到同一標準下，使的某乙個特徵對最終結果不會造成更大的影響。通過對原始資料進行變換把資料對映到預設為 0,1 之間問題如果資料中異常點過多，會有什麼影響？最大值最小值會受影響。方差考量資料的穩定性。標準化將所有資料進行變換到平均值為0，標準差為1之間。standardsc...

英文原鏈結源鏈結假設 x和y是線性相關的則需要找到乙個關於x的線性函式來盡可能準確的 y。y a0 a1x1 怎樣找到最合適的回歸線？通過最小化值和觀測值的均方差導入庫匯入資料集檢查缺失資料分離訓練集和測試集特徵縮放從sklearn.linear model中匯入linearreg...

1.定義通過特定的統計方法數學方法將資料轉換成演算法要求的資料 2.數值型資料標準縮放 1 歸一化 2 標準化 3 缺失值類別型資料 one hot編碼時間型別時間的切分 1 歸一化特點通過對原始資料進行變換把資料對映到預設為 0,1 之間注作用於每一列，max為一列的最大值...