演算法複習(個人整理簡亂版)

2021-08-29 04:05:24 字數 1599 閱讀 9982

參考:

pca: z = wt*x; x*xt*w = r * w; kpca: fi(x) * fi(x)t *w = r*w

svd: ax = rx -> a w = w *s -> a = w * s * w-1 -> a = w*s*wt => a = u * s * vt

文字主題模型-潛在語義索引lsi: a = u*s*vt

文字主題模型-非負矩陣分解nmf: a = w*h; loss = argmin(w,h) 1/2*||a-wh||^2 +alpha*rho*||w||1 + alpha*rho*||h||1+alpha*(1-rho)/2*||w||^2+alpha*(1-rho)/2*||h||^2

分詞原理:r=argmax(i) p(ai1, ai2, ..., aini), 馬爾可夫假設 p(aij|ai1,ai2, ... , ai(j-1))=p(aij|ai(j-1)) -> 2-gram, p(ai1ai2...ain)=p(ai1)*p(ai2|ai1)*p(ai3|ai2)*...*p(aij|ai(j-1)) 用維特比演算法; p(w2|w1)=freq(w1,w2)/freq(w1)

tf-idf: idf(x) = log((n+1)/(n(x)+1)) +1; tf-idf(x) = tf(x) * idf(x)

bag of words: 詞代模型,單詞個數;set of words: 詞集模型,出現與否;hash trick: fi(j) = sigma(h(i)=j) fi(i), fi(j) = sigma(h(i)=j) epsilon(i)*fi(i), epsilon(i)=+/-1

中文文字挖掘:資料收集、去除非文字部分、處理中文編碼、中文分詞、引入停用詞、特徵處理、建立分析模型。

英文文字挖掘:資料收集、去除非文字部分、拼寫檢查、詞幹提取和詞形還原、轉化為小寫、引入停用詞、特徵處理、建立分析模型。

word2vec:

lda:

gd: h(x) = x*theta;  j = 1/2 * (x*theta - y)t * ( x*theta - y); theta = theta - alpha * patial(j)/patial(theta); patial = xt*(x*theta - y);

ls: j = 1/2 * (x*theta - y)t * (x*theta - y); patial = xt * (x*theta - y) = 0 => theta = (xtx)-1 * xty

線性回歸:h theta (x) = x * theta ; j = 1/2*(x*theta - y)t*(x*theta-y); gd法 theta = theta - alpha * xt*(x*theta - y); ls法:theta = (xtx)-1*xty; 多項式回歸: (x1,x2) -> (1, x1, x2, x1^2, x2^2, x1*x2);廣義線性回歸: lny = x*theta=> g(y) = x*theta, y = g-1(x*theta); 正則化: j = j上面的 + alpha * ||theta||1 或 1/2*alpha*||theta||^2 => theta = (xtx+alpha*e)-1*xty;

樸素貝葉斯:

knn:

k-means/ k-means++:

演算法整理 複習 Splay

一 zig 此時節點 u 是 root v 是左孩子 右旋 v 是右孩子 左旋 二 zig zig v u 同側,先 u 再 v 此時節點 u 不是 root v 與 u 同為左孩子 右旋兩次 v 與 u 同為右孩子 左旋兩次 三 zig zag v u 異側,先 v 再 u 此時節點 u 不是 r...

演算法分析(期末複習版)

如果存在兩個正常數c和n0,對於所有的n n0,有 f n c g n 則記作 f n o g n o f n o g n o max f n g n o f n o g n o f n g n o f n o g n o f n g n 如果g n o f n 則o f n o g n o f n...

淺顯Js演算法思路個人整理

乙個人寫寫看看,若有錯誤不足,望海涵斧正 遞迴函式的作用有些類似於遍歷,通常用於實現重複性規律性的需求 遞迴函式要求有乙個終點,即執行至符合某一條件後不再繼續遞迴,而是返回乙個固有的結果 如果遞迴的終點不存在或者是無法達到時,會出現棧溢位的報錯 以下為遞迴函式實現,數字累加 最簡單的遞迴 funct...