三統計學習方法zz

前文說到使用統計學習方法進行文字分類就是讓計算機自己來觀察由人提供的訓練文件集，自己總結出用於判別文件類別的規則和依據。理想的結果當然是讓計算機在理解文章內容的基礎上進行這樣的分類，然而遺憾的是，我們所說的「理解」往往指的是文章的語義甚至是語用資訊，這一類資訊極其複雜，抽象，而且存在上下文相關性，對這類資訊如何在計算機中表示都是尚未解決的問題（往大里說，這是乙個「知識表示」的問題，完全可以另寫一系列文章來說了），更不要說讓計算機來理解。

利用計算機來解決問題的標準思路應該是：為這種問題尋找一種計算機可以理解的表示方法，或曰建立乙個模型（乙個文件表示模型）；然後基於這個模型，選擇各方面滿足要求的演算法來解決。用譚浩強的話說，程式，就是資料+演算法。（啥？你不知道譚浩強是誰？上過學麼？學過c麼？這搗什麼亂？）

既然文字的語義和語用資訊很難轉換成計算機能夠理解的表示形式，接下來順理成章的，人們開始用文章中所包含的較低階別的詞彙資訊來表示文件，一試之下，效果居然還不錯。

統計學習方法進行文字分類（以下就簡稱為「統計學習方法」，雖然這個方法也可以應用到除文字分類以外的多個領域）的乙個重要前提由此產生，那就是認為：文件的內容與其中所包含的詞有著必然的聯絡，同一類文件之間總存在多個共同的詞，而不同類的文件所包含的詞之間差異很大[1]。

進一步的，不光是包含哪些詞很重要，這些詞出現的次數對分類也很重要。

這一前提使得向量模型（俗稱的vsm，向量空間模型）成了適合文字分類問題的文件表示模型。在這種模型中，一篇文章被看作特徵項集合來看，利用加權特徵項構成向量進行文字表示，利用詞頻資訊對文字特徵進行加權。它實現起來比較簡單，並且分類準確度也高，能夠滿足一般應用的要求。[5]

而實際上，文字是一種資訊載體，其所攜帶的資訊由幾部分組成：如組成元素本身的資訊（詞的資訊）、組成元素之間順序關係帶來的資訊以及上下文資訊（更嚴格的說，還包括閱讀者本身的背景和理解）[12]。

而vsm這種文件表示模型，基本上完全忽略了除詞的資訊以外所有的部分，這使得它能表達的資訊量存在上限[12]，也直接導致了基於這種模型構建的文字分類系統（雖然這是目前絕對主流的做法），幾乎永遠也不可能達到人類的分類能力。後面我們也會談到，相比於所謂的分類演算法，對特徵的選擇，也就是使用哪些特徵來代表一篇文件，往往更能影響分類的效果。

對於擴充文件表示模型所包含的資訊量，人們也做過有益的嘗試，例如被稱為lsi（latent semantic index潛在語義索引）的方法，就被實驗證明保留了一定的語義資訊（之所以說被實驗證明了，是因為人們還無法在形式上嚴格地證明它確實保留了語義資訊，而且這種語義資訊並非以人可以理解的方式被保留下來），此為後話。

前文說到（就不能不用這種老舊的說法？換換新的，比如previously on "prison break"，噢，不對，是previously on text categorizaiton……）統計學習方法其實就是乙個兩階段的解決方案，（1）訓練階段，由計算機來總結分類的規則；（2）分類階段，給計算機一些它從來沒見過的文件，讓它分類（分不對就打屁屁）。

三統計學習方法zz

統計學習方法 1 統計學習方法概論

統計學習方法筆記三

統計學習方法

三 統計學習方法zz

統計學習方法 1 統計學習方法概論

統計學習方法筆記三

統計學習方法

相關推薦

三統計學習方法zz