文字分類的基本原理

2021-10-19 12:52:44 字數 1892 閱讀 6757

文字分類的概念

文字分類用電腦對文字集(或其他實體或物件)按照一定的分類體系或標準進行自動分類標記。 它根據乙個已經被標註的訓練文件集合, 找到文件特徵和文件類別之間的關係模型, 然後利用這種學習得到的關係模型對 新的文件進行類別判斷 。文字分類從基於知識的方法逐漸轉變為基於統計 和機器學習的方法。

文字分類的過程

文字分類一般包括了文字的表達、 分類器的選擇與訓練、 分類結果的評價與反饋等過程,其中文字的表達又可細分為文字預處理、索引和統計、特徵抽取等步驟。文字分類系統的總體功能模組為:

(1) 預處理:將原始語料格式化為同一格式,便於後續的統一處理;

(2) 索引:將文件分解為基本處理單元,同時降低後續處理的開銷;

(3) 統計:詞頻統計,項(單詞、概念)與分類的相關概率;

(4) 特徵抽取:從文件中抽取出反映文件主題的特徵;

(5)分類器:分類器的訓練;

(6) 評價:分類器的測試結果分析。

文字分類的方法

文字分類問題與其它分類問題沒有本質上的區別,其方法可以歸結為根據待分類資料的某些特徵來進行匹配,當然完全的匹配是不太可能的,因此必須(根據某種評價標準)選擇最優的匹配結果,從而完成分類。

詞匹配法

詞匹配法是最早被提出的分類演算法。這種方法僅根據文件中是否出現了與類名相同的詞(頂多再加入同義詞的處理)來判斷文件是否屬於某個類別。很顯然,這種過於簡單機械的方法無法帶來良好的分類效果。

知識工程

後來興起過一段時間的知識工程的方法則借助於專業人員的幫助,為每個類別定義大量的推理規則,如果一篇文件能滿足這些推理規則,則可以判定屬於該類別。這 裡與特定規則的匹配程度成為了文字的特徵。由於在系統中加入了人為判斷的因素,準確度比詞匹配法大為提高。但這種方法的缺點仍然明顯,例如分類的質量嚴重 依賴於這些規則的好壞,也就是依賴於制定規則的「人」的好壞;再比如制定規則的人都是專家級別,人力成本大幅上公升常常令人難以承受;而知識工程最致命的弱 點是完全不具備可推廣性,乙個針對金融領域構建的分類系統,如果要擴充到醫療或社會保險等相關領域,則除了完全推倒重來以外沒有其他辦法,常常造成巨大的 知識和資金浪費。

統計學習

後來人們意識到,究竟依據什麼特徵來判斷文字應當隸屬的類別這個問題,就連人類自己都不太回答得清楚,有太多所謂「只可意會,不能言傳」的東西在裡面。人類的判斷大多依據經驗以及直覺,因此自然而然的會有人想到和讓機器像人類一樣自己來通過對大量同類文件的觀察來自己總結經驗,作為今後分類的依據。這便是統計學習方法的基本思想。

統計學習方法需要一批由人工進行了準確分類的文件作為學習的材料(稱為訓練集,注意由人分類一批文件比從這些文件中總結出準確的規則成本要低得多),計算機從這些文件中挖掘出一些能夠有效分類的規則,這個過程被形象的稱為訓練,而總結出的規則集合常常被稱為分類器。訓練完成之後,需要對計算機從來沒有見過的文件進行分類時,便使用這些分類器來進行。這些訓練集包括sogou文字分類分類測試資料、中文文字分類分類語料庫,包含arts、literature等類別的語料文字、可用於聚類的英文文字資料集、網易分類文字分類文字資料、tc-corpus-train(語料庫訓練集,適用於文字分類分類中的訓練)、2023年中文網頁分類訓練集cct2002-v1.1等。

現如今,統計學習方法已經成為了文字分類領域絕對的主流。主要的原因在於其中的很多技術擁有堅實的理論基礎(相比之下,知識工程方法中專家的主觀因素居多),存在明確的評價標準,以及實際表現良好。統計分類演算法

將樣本資料成功轉化為向量表示之後,計算機才算開始真正意義上的「學習」過程。常用的分類演算法為:

決策樹,rocchio,樸素貝葉斯,神經網路,支援向量機,線性最小平方擬合,knn,遺傳演算法,最大熵,generalized instance set等。在這裡只挑幾個最具代表性的演算法侃一侃。

mysql的基本原理 Mysql 基本原理

mysql 基本原理 mysql是一種關聯式資料庫管理系統,關聯式資料庫將資料儲存在不同的表中,而不是將所有資料放在乙個大倉庫內,這樣就增加了速度並提高了靈活性 ysql是資料庫登入命令 uroot預設超級使用者登入 p 預設沒密碼 中寫密碼 mysqladmin uroot password 12...

物料分類賬的基本原理

物料賬 英文縮寫 ml 是按照物料的實際流向來分攤差異的,它支援每月物料收支業務採用標準價,期末核算物料的實際成本。即在月內每天出 入庫業務採用標準價記帳,期末計算物料實際成本並重估庫存值。物料分類賬例子 1.這裡假設有個原料 rom 標準 為 10 期初數量為 80,2.本月入庫為 20個,單價為...

pwm控制的基本原理 PWM控制的基本原理

pwm pulse width modulation 控制 脈衝寬度調製技術,通過對一系列脈衝的寬度進行調製,來等效地獲得所需要波形 含形狀和幅值 pwm控制技術在逆變電路中應用最廣,應用的逆變電路絕大部分是pwm型,pwm控制技術正是有賴於在逆 變電路中的應用,才確定了它在電力電子技術中的重要地位...