資料探勘(入門知識)

2021-06-28 03:37:51 字數 762 閱讀 3932



最近在看一本叫《大話資料探勘》的書,簡單的摘要總結一些資料探勘的基礎理論知識:

1.data mining(在學術界也叫kdd:knowledge discovery in database) ,就是從大量的、不完全的、有雜訊的、模糊的、隨機的 資料中,提取隱含在其中的,我們事先不知道的、又潛在有用資訊的知識的過程。(大多演算法建立在:統計學的大數定律基礎上)

2.data mining 能做什麼: 資料探勘任務包括描述性任務**性任務兩種:

描述性任務包括聚類、關聯分析、序列、異常檢測等,

**性任務包括回歸和分類

(1):關聯規則挖掘   (1994 apriori 演算法):也包括序列和時間序列

(2):聚類分析(連續:k-means,k-medoids,

(離散:k-模,k_原型)

(非球狀簇:基於密度的聚類演算法:dbscan、optics、denclue)

(層次聚類演算法:凝聚&&**)

(視覺聚類演算法)

(3)**:基本原理是黑箱子模型(不管輸入輸出之間的具體關係是什麼,只關係他們之間的聯絡,而不在乎他們之間的因果關係)

(4)回歸:線性回歸,線性擬合

(5)偏差的檢測:對分析物件的少數的、極端的特例的描述,揭示內在的原因

後續補充。。。



資料探勘入門

性挖掘 對當前資料進行推斷,以做出 主要包括分類 回歸。分類 將樣本劃分到幾個預定義類,屬於離散。回歸 將樣本對映到乙個真實值 變數上,連續值。描述資料 描述資料庫中資料的一般性質。聚類 將樣本劃分為不同類 無預定義類 關聯規則發現 發現資料集中相關性。聚類分析,在發現緊密相關的觀測值組群,可以在沒...

資料探勘入門系列 資料探勘基礎

伴隨著資訊化系統建設的發展,各行各業的中大型企業都儲存了大量的業務資料。很多的企業想要通過對這些資料的分析,來發現新的商機以及從這些資料中找到提高盈利的方法。大部分的企業,都是憑藉管理人員的自身個人經驗來開展這項工作。如果有一套系統,能夠自動地或者半自動地發現相關的知識和解決方案,這樣將會有效地提高...

資料探勘入門 分詞

隨著社會化資料大量產生,硬體速度上公升 成本降低,大資料技術的落地實現,資料這座金山已浮出水面。這裡,嚴瀾將帶我們逐漸開啟這座金山 從 分詞 開始挖掘資料。1.基於詞典的分詞,需要先預設乙個分詞詞典,比如上面句子切分出來的 假如 上午 這些詞先存放在詞典,然後把句子切分成單字組合成詞語去詞典裡查詢,...