數智時代，大資料分析的幾個核心概念

3.大資料分析的幾個核心概念

3.1k―平均演算法

k―平均演算法是一種得到廣泛應用的基於劃分的聚類演算法。其把m個物件分為n個簇，使得每個簇內具有較高的相似度。

在應用該演算法進行資料分析時，首先應輸入包含m個物件的資料集a以及簇的數目n。從a中任意選擇n個物件作為初始簇中心並且不斷重複，隨後計算出簇中物件的均值，將每個物件分配到最相似的簇並且不斷更新簇均值，最後計算準則函式直到其不再發生變化為止。因為該演算法的複雜度大約是0（nkt），所以該演算法在處理大資料集時是相對可伸縮的和高效率的。

3.2奇異值分解

假設a是乙個m×n階矩陣，其中的元素全部屬於實數域或複數域。如此則存在乙個分解使得a=u∑v*。其中u是m×m階酉矩陣，σ是半正定m×n階對角矩陣，而v*是n×n階酉矩陣的共軛轉置矩陣。這樣的分解就稱為a的奇異值分解。

在matlab**軟體中計算奇異值分解的函式式為：[b.c.d]=svd（x）

3.3主成分分析（pca演算法）

從巨集觀上來說，主成分分析是指在研究一項變數較多的課題時，將這些變數通過線性變換而簡化為幾個重要變數的一種多元統計分析方法。而在資料分析領域，主成分分析的主要作用是對大規模的資料集進行分析與簡化。其主要體現在降低資料集的維數，同時盡可能保持資料集中的對所研究的問題最有價值的特徵。簡而言之，就是保留低階主成分，忽略高階主成分。其具體方法是通過對協方差矩陣進行特徵分解，從而得出資料的特徵向量與特徵值。主成分分析在數學上可以理解為乙個正交化的線性變換，把資料整體變換到乙個新的座標系中，使得這一資料的任何投影的第一大方差在第一主成分上，第二大方差在第二主成分上，依次類推。

3.4決策樹學習

從廣義上講，決策樹是一種運用**法的概率分析，即在已知各種事件發生概率的基礎上，通過構建決策樹來**期望值大於等於零的概率，同時判斷可行性的決策分析方法。

決策樹學習是資料分析領域常用的方法，其目的是構建乙個模型來**樣本的目標值。一棵決策樹的訓練就是依據乙個既定指標，將訓練資料集分為幾個子集並且在所產生的子集中不斷重複此方法的過程，直到乙個訓練子集的類標都相同時為止。決策樹主要有兩種型別：分類樹和回歸樹。其中分類樹的輸出是樣本的類標，而回歸樹輸出的是乙個實數。決策樹的優點體現在即可以處理數值型資料也可以處理類別型資料，並且適合處理大規模資料。

人工智慧、大資料、雲計算和物聯網的未來發展值得重視，均為前沿產業，多智時代專注於人工智慧和大資料的入門和科譜，在此為你推薦幾篇優質好文：

怎麼才能轉入大資料領域，成為一名合格的大資料分析師

大資料分析，主要有哪些核心技術？

如何設計企業級大資料分析平台？

多智時代-人工智慧和大資料學習入門**|人工智慧、大資料、物聯網、雲計算的學習交流**

數智時代，大資料分析的幾個核心概念

資料時代，大資料分析技術的介紹

大資料分析平台的核心價值

大資料時代，如何引領資料分析新時代的企業高管？

數智時代，大資料分析的幾個核心概念

資料時代，大資料分析技術的介紹

大資料分析平台的核心價值

大資料時代，如何引領資料分析新時代的企業高管？

相關推薦