浙江大學 包家立計算生物學1

2021-10-03 14:23:38 字數 1116 閱讀 8776

資料探勘的過程

資料開採的目的

分類聚類

相關性分析(自相關,互相關)

偏差分析

結果解釋和評價

除無關模式

新選擇演算法

資訊的傳遞

從信源出發,通過通道,傳遞給信宿

資訊的編碼,即從信源發出的訊號,經過編碼形成機器可以識別的訊號,經過通道進行傳播。

簡單的如同,打**,聲音頻號的傳播,先經過編碼,然後先通過通道(此處是電磁波)進行電訊號的傳播,通過電磁4訊號干擾,可以影響訊號的質量,這也就是為什麼通過電磁波的遮蔽可以阻斷電子裝置的通訊 。

採用二進位制編碼

先把事件分為等概率的兩個事件,然後再將每一層的事件進行層層細分(按照發生的概率進行細分)。

字元位數

h(i)=log2(1/pi),以二進位制為例,此處的底就是進製數

此處的h(i)也是資訊量的表示i(xi)

而資訊熵是h(i)和相應的事件的概率的乘積,資訊熵用h表示,即黑板上的第三個式子

h=σp_i*log_a(1/pi) (i從1到n),這個表示的是平均資訊熵

資訊熵的性質

1.非負性

2.可加性

3.確定性

4.可擴充套件性

5.極值性

互資訊,輸入變數和輸出變數(數值可能不同,比如輸入時核苷酸的個數,輸出的時氨基酸的個數)

聯合概率,

條件資訊熵即為在某一條件下的資訊量的期望值,

平均條件資訊熵,就是在聯合分布的空間裡,整個事件發生的平均資訊熵。

HDU 1228 A B 浙江大學研究生冠軍

problem description 讀入兩個小於100的正整數a和b,計算a b.須要注意的是 a和b的每一位數字由相應的英文單詞給出.input 測試輸入包括若干測試用例,每乙個測試用例佔一行,格式為 a b 相鄰兩字串有乙個空格間隔.當a和b同一時候為0時輸入結束,對應的結果不要輸出.out...

2023年浙江大學計算機及軟體工程研究生機試真題

題目描述 給你n個點,m條無向邊,每條邊都有長度d和花費p,給你起點s終點t,要求輸出起點到終點的最短距離及其花費,如果最短距離有多條路線,則輸出花費最少的。輸入 輸入n,m,點的編號是1 n,然後是m行,每行4個數 a,b,d,p,表示a和b之間有一條邊,且其長度為d,花費為p。最後一行是兩個數 ...

2023年浙江大學計算機及軟體工程研究生機試真題

題目描述 excel可以對一組紀錄按任意指定列排序。現請你編寫程式實現類似功能。對每個測試用例,首先輸出1行 case i 其中 i 是測試用例的編號 從1開始 隨後在 n 行中輸出按要求排序後的結果,即 當 c 1 時,按學號遞增排序 當 c 2時,按姓名的非遞減字典序排序 當 c 3 時,按成績...