2021 2022學年第一學期寒假學習記錄19

2022-09-18 22:42:12 字數 2350 閱讀 5177

2022.01.19,今天是服務外包競賽:隨便拿個獎隊的專案進行的第十九天,今天根據專案要求繼續學習matlab數字影象處理

實驗原理與設計

在分類(classification)問題中,常常需要把乙個事物分到某個類別。乙個事物具有很多屬性,把它的眾多屬性看做乙個向量,即x=(x1,x2,x3,…,xn),用x這個向量來代表這個事物。類別也是有很多種,用集合y=y1,y2,…ym表示。如果x屬於y1類別,就可以給x打上y1標籤,意思是說x屬於y1類別。這就是所謂的分類(classification)。x的集合記為x,稱為屬性集。一般x和y的關係是不確定的,你只能在某種程度上說x有多大可能性屬於類y1,比如說x有80%的可能性屬於類y1,這時可以把x和y看做是隨機變數,p(y|x)稱為y的後驗概率(posterior probability),與之相對的,p(y)稱為y的先驗概率(prior probability)1。在訓練階段,我們要根據從訓練資料中收集的資訊,對x和y的每一種組合學習後驗概率p(y|x)分類時,來了乙個例項x,在剛才訓練得到的一堆後驗概率中找出所有的p(y|x), 其中最大的那個y,即為x所屬分類。根據貝葉斯公式,後驗概率為   

在比較不同y值的後驗概率時,分母p(x)總是常數,因此可以忽略。先驗概率p(y)可以通過計算訓練集中屬於每乙個類的訓練樣本所佔的比例容易地估計。

在文字分類中,假設我們有乙個文件d∈x,x是文件向量空間(document space),和乙個固定的類集合c=,類別又稱為標籤。顯然,文件向量空間是乙個高維度空間。我們把一堆打了標籤的文件集合作為訓練樣本,∈x×c。例如:=對於這個只有一句話的文件,我們把它歸類到 china,即打上china標籤。

我們期望用某種訓練演算法,訓練出乙個函式γ,能夠將文件對映到某乙個類別: γ:x→c這種型別的學習方法叫做有監督學習,因為事先有乙個監督者(我們事先給出了一堆打好標籤的文件)像個老師一樣監督著整個學習過程。樸素貝葉斯分類器是一種有監督學習。

實驗主要**:

1

由於中文本身是沒有自然分割符(如空格之類符號),所以要獲得中文文字的特徵變數向量首先需要對文字進行中文分詞。這裡採用極易中文分詞元件

2

先驗概率計算,n表示訓練文字集總數量。

3

條件概率計算,為在條件a下發生的條件事件b發生的條件概率。x?給定的文字屬性,c?給定的分類

4

對給定的文字進行分類

三、測試資料

translate with

xenglish

arabic

hebrew

polish

bulgarian

hindi

portuguese

catalan

hmong daw

romanian

chinese simplified

hungarian

russian

chinese traditional

indonesian

slovak

czech

italian

slovenian

danish

japanese

spanish

dutch

klingon

swedish

english

korean

thai

estonian

latvian

turkish

finnish

lithuanian

ukrainian

french

malay

urdu

german

maltese

vietnamese

greek

norwegian

welsh

haitian creole

persian

translate with

copy the url below

back

embed the snippet below in your site

" readonly>

enable collaborative features and customize widget: bing webmaster portal

back

2021 2022學年第一學期寒假學習記錄11

2022.01.11,今天是服務外包競賽 隨便拿個獎隊的專案進行的第十一天,今天根據專案要求繼續學習matlab數字影象處理 1 實驗目的 學習常見的數學形態 算基本方法,了解腐蝕 膨脹 開運算 閉運算取得的效果,培養處理實際影象的能力,並為課堂教學提供配套的實踐機會。2 實驗要求 利用matlab...

2021 2022學年第一學期寒假學習記錄12

2022.01.12,今天是服務外包競賽 隨便拿個獎隊的專案進行的第十二天,今天根據專案要求繼續學習matlab數字影象處理 clf 為 清除figure視窗中的內容,並不關閉figure視窗 figure 為 開啟乙個新的figure視窗 close 為 關閉乙個figure視窗 close al...

2021 2022學年第一學期寒假學習記錄16

2022.01.16,今天是服務外包競賽 隨便拿個獎隊的專案進行的第十六天,今天根據專案要求繼續學習matlab數字影象處理 機器學習演算法中經常碰到非線性優化問題,如 sparse filtering 演算法,其主要工作在於求解乙個非線性極小化問題。在具體實現中,大多呼叫的是成熟的軟體包做支撐,其...