資料探勘核心技術揭秘

資料探勘主要可以分為三類：聚類、分類、回歸 pig sql指令碼語言，生成自定義函式 matlab語言分為主接指令互動和m檔案的程式設計方式 weka 機器學習軟體 -> rapodminer r語言的學習方法

主要需要的數學知識有：概率統計、矩陣理論、相似度計算、線性代數（最小二乘法）

索引技術包括：資料庫索引和文字索引（倒排索引）外排序、mapreduce技術、hash技術（bloom filter）

聚類與分類的不同在於具有資料特徵的選取和提取的過程> -k均值聚類、k-medoids聚類（劃分聚類）

> -birch （層次聚類）離群點挖掘技術：統計、鄰近度、密度、聚類、高維資料

決策樹：求取淨現值的期望值大於等於零的概率（取樣&**）

資訊熵、資訊增益 id3演算法、c4.5演算法 k近鄰分類（基於例項的學習）

k近鄰演算法 — 通過加權重或者近點合併客服資料不對稱） k-d樹 — 主要應對於k近鄰索引->多維空間搜尋（範圍、最近鄰）

支援向量機：實現間隔最大化已得到最優分類，等同求解乙個凸二次規劃的最優化演算法

侷限：大規模樣本訓練、多分類問題最優決策邊界的選取

核函式：將低維不可分資料轉化為高維可分

k(xi, xj) = (xi , xj+1)^d

k (xi, xj) = exp (- )

大資料核心技術解讀

網際網路時代，我們每天都在生產著大量的資料，並且這些資料被記錄儲存下來，不斷地累積，資料規模越來越大，想要實現對資料的處理，就需要成熟的大資料技術框架來提供支援。今天的大資料前沿技術培訓分享，我們就來對大資料核心技術做乙個簡單的入門介紹。在大資料當中，相當一部分的資料是半結構化非結構化的，並且伴隨...

今日頭條核心技術「個性推薦演算法」揭秘

1月20日，新生代移動網際網路企業今日頭條在北京國家會議中心舉辦了算數年度資料發布會資料發布會的主題名為算數實際上指的是演算法與資料眾所周知，今日頭條是個個性化的新聞推薦引擎。在今日頭條ceo張一鳴看來，演算法是今日頭條這款興趣推薦搜尋引擎應用的核心，這也是與傳統最本質的區別...

Canvas 核心技術

最近專案需求中要寫較多h5小遊戲，遊戲本身體量不是很複雜，主要是承載較多業務邏輯，所以決定用canvas來完成遊戲部分。之前只是知道h5中有canvas這個東西，也知道它大概是畫圖的，但具體怎麼用，還是一無所知的。在mdn在看了一些相關資料，一口氣也看了html 5 canvas 核心技術和html...

資料探勘核心技術揭秘

大資料核心技術解讀

今日頭條核心技術「個性推薦演算法」揭秘

Canvas 核心技術

相關推薦