斯坦福機器學習筆記十二

由於大規模資料集求最優解，計算量非常大，對於這樣的問題，如果能夠將資料集分配給多台計算機，讓每台計算機處理資料集的乙個子集，然後將計算結果彙總再求和，這樣的方法叫做對映簡化。

如果任何學習演算法能夠表達為，對訓練集的函式求和，那麼就能將這個任務分配給多台計算機（或者同一臺計算機的不同cpu核心），以達到加速處理的目的。

1、文字偵測——將上的文字與其他環境物件分離開來

2、字元切分——將文字分割成乙個個單一的字元

3、字元分類——確定每乙個字元是什麼

像這樣的乙個系統，稱之為機器學習流水線。在流水線中會有多個不同的模組，比如在本例中，我們有文字檢測、字元分割和字母識別。其中每個模組都可能是乙個機器學習元件或者只是乙個接乙個連在一起的一系列資料。最終得出希望的結果就是最終識別到的中的文字資訊。如果要設計乙個機器學習系統，最重要的就是要怎樣組織好這個流水線，如何將這個問題分成一系列不同的模組，流水線中的每乙個模組都會影響到最終的演算法的表現。

以行人檢測為例，首先要做的是用許多固定尺寸的來訓練能識別行人的模型，然後用之前訓練識別行人的模型時所採用的尺寸在上進行依次滑動，然後判斷是否有行人，直到整張完全檢測完。每次滑動的大小被稱為步長，通常使用4個畫素作為步長。然後再使用大一點的方框依次檢查，取回的影象同樣要壓縮到原來的大小。

滑動窗**術也被用於文字識別，首先訓練模型能夠區分字元與非字元，然後運用滑動窗**術識別字元，字元的分割也同樣是需要使用正負樣本訓練分類器，然後用滑動窗分類器將連續的文字區域劃分成單個字母。

想要獲得乙個比較高效的機器學習系統，最可靠的辦法就是選擇乙個低偏差的學習演算法，然後用非常大的訓練集來訓練它。為了解決大的訓練集的問題，可以考慮人工資料合成。一般分為兩種，一種是全部自己創造新的訓練集；一種是用已有的一小部分帶標籤的訓練集來創造訓練集。

以文字為例，可以在網上找到不同字型的文字，再為其添上不同的背景，使用某種模糊處理，這就就可以得到和真實樣本類似的帶標籤的訓練集。這是第一種。第二種是可以對已有的文字進行變形扭曲，得到新的帶標籤的樣本。當然這些變形是在實際的應用中會用的到的，不然就沒有意義了。

1、人工資料合成

2、手動收集、標記資料

3、眾包

當開發機器學習系統的流水線時，上限分析通常能提供一種很有用的導向，告訴我們流水線中的哪個部分最值得花時間改善。流程圖中每一部分的輸出都是下一部分的輸入，上線分析中，我們選取一部分，手工提供100%正確的輸出結果，任何看看整體效果提公升了多少。

以上述的文字識別為例，如果令文字偵測部分輸出的結果為100%正確，發現系統的總體效果從72%提高到89%，這意味著我們很可能會投入精力來提高文字偵測部分。如果令字元切分輸出的結果100%正確，發現系統的總體結果只提公升了1%，這意味著字元切分部分已經足夠好了。如果令字元分類輸出的結果100%正確，系統的總體效果有提公升了10%，這意味著這塊也應該投入更多的時間和精力。

斯坦福機器學習筆記十二

斯坦福機器學習筆記五

斯坦福機器學習筆記十

斯坦福機器學習筆記 1

斯坦福機器學習筆記十二

斯坦福機器學習筆記五

斯坦福機器學習筆記十

斯坦福機器學習筆記 1

相關推薦