資料探勘核心技術揭秘

2021-12-30 12:40:47 字數 666 閱讀 6312

資料探勘主要可以分為三類:聚類、分類、回歸 pig sql指令碼語言,生成自定義函式 matlab語言 分為主接指令互動和m檔案的程式設計方式 weka 機器學習軟體 -> rapodminer r語言的學習方法

主要需要的數學知識有:概率統計、矩陣理論、相似度計算、線性代數(最小二乘法)

索引技術包括:資料庫索引和文字索引(倒排索引) 外排序、mapreduce技術、hash技術(bloom filter)

聚類與分類的不同在於具有資料特徵的選取和提取的過程> -k均值聚類、k-medoids聚類(劃分聚類)

> -birch (層次聚類)離群點挖掘技術:統計、鄰近度、密度、聚類、高維資料

決策樹:求取淨現值的期望值大於等於零的概率(取樣&**)

資訊熵、資訊增益 id3演算法、c4.5演算法 k近鄰分類(基於例項的學習)

k近鄰演算法 — 通過加權重或者近點合併客服資料不對稱) k-d樹 — 主要應對於k近鄰索引->多維空間搜尋(範圍、最近鄰)

支援向量機:實現間隔最大化已得到最優分類,等同求解乙個凸二次規劃的最優化演算法

侷限:大規模樣本訓練、多分類問題 最優決策邊界的選取

核函式:將低維不可分資料轉化為高維可分

k(xi, xj) = (xi , xj+1)^d

k (xi, xj) = exp (- )

大資料核心技術解讀

網際網路時代,我們每天都在生產著大量的資料,並且這些資料被記錄儲存下來,不斷地累積,資料規模越來越大,想要實現對資料的處理,就需要成熟的大資料技術框架來提供支援。今天的大資料前沿技術培訓分享,我們就來對大資料核心技術做乙個簡單的入門介紹。在大資料當中,相當一部分的資料是半結構化 非結構化的,並且伴隨...

今日頭條核心技術「個性推薦演算法」揭秘

1月20日,新生代移動網際網路企業今日頭條在北京國家會議中心舉辦了 算數 年度資料發布會 資料發布會的主題名為 算數 實際上指的是 演算法 與 資料 眾所周知,今日頭條是個個性化的新聞推薦引擎。在今日頭條ceo張一鳴看來,演算法是 今日頭條 這款興趣推薦搜尋引擎應用的核心,這也是與傳統 最本質的區別...

Canvas 核心技術

最近專案需求中要寫較多h5小遊戲,遊戲本身體量不是很複雜,主要是承載較多業務邏輯,所以決定用canvas來完成遊戲部分。之前只是知道h5中有canvas這個東西,也知道它大概是畫圖的,但具體怎麼用,還是一無所知的。在mdn在看了一些相關資料,一口氣也看了html 5 canvas 核心技術和html...