機器學習基礎（四）持久化分類器

我們以決策樹分類器為例。

構造決策樹是很耗時的任務，即使處理很小的資料集，如果資料集很大，將會耗費更多的計算時間。然而用建立好的決策樹解決（新樣本）的分類問題，則可很快完成。因此，為了節省計算時間，最好能夠在每次執行對新樣本的分類問題時呼叫已經構造好的決策樹，也即我們需使用訓練集離線訓練（offline training）決策樹。為了解決這個問題，我們可以使用 python 的 pickle 模組序列化物件。

序列化物件可以在磁碟上儲存物件，並在任何需要的時候讀取出來，任何物件都可執行序列化操作，字典物件自然也不例外。

import pickle
defdumptree
(tree, filename):
with open(filename, 'wb') as fp:
pickle.dump(tree, fp) 
defloadtree
(filname):
with open(filename, 'rb') as fp：
return pickle.load(fp, encoding='latin1')

通過上述**，我們可將分類器儲存在硬碟上，而不用每次對資料分類時重新學習一遍（一次訓練，多次測試，是不是也有些 amortization，耗時分擔的意味），這也是決策樹的優點之一。

注：並給所有的分類器模型都可持久化，比如 knn（k近鄰演算法），knn 演算法它是基於新樣本到訓練資料的距離進行的分類，存在一種直接的互動和依賴。

機器學習基礎（四）持久化分類器

機器學習基礎專題分類

機器學習（四） Logistic回歸分類

機器學習分類器組合 AdaBoost

機器學習基礎（四） 持久化分類器

機器學習基礎專題 分類

機器學習（四） Logistic回歸分類

機器學習 分類器組合 AdaBoost

相關推薦

機器學習基礎（四）持久化分類器

機器學習基礎專題分類

機器學習分類器組合 AdaBoost