資料探勘核心數學之數論(一)數論與資料分析

2021-08-14 10:12:55 字數 1696 閱讀 6911

一.數論研究物件

數論研究正整數集合,正整數也常被稱為自然數:

1,2,3,4,5,……

數學上,常把非負數(包括0)稱為自然數,考慮到資料探勘中的實際意義,本系列中所有自然數均假定為正整數。

1.數論研究不同型別數之間的關係,例如:

奇數:1,3,5,7,9,……

偶數:2,4,6,8,10,……

平方數:1,4,9,16,25,……(可排列成正方形的數,高斯公式的幾何證明方法即**於此)

立方數:1,8,27,64,125,……(推廣「費馬大的定律」)

素數:2,3,5,7,11,13,……(因子只有1與自身的數,常用於密碼學,rsa加密演算法)

與1(mod4)同餘的數:1,5,9,13,17,……(mod4餘數為1,常用於畢達哥斯拉三元組,又稱勾股陣列平方數的驗證)

與3(mod4)同餘的數:3,7,11,15,19,……(mod4餘數為3,常用於平方數的驗證,若餘數為3,則不構成平方陣列)

孿生素數:3,5,7,11,13,17,19,……(奇數p是素數,p+2也是素數)

三角數:1,3,6,10,15,……(可排列成三角形的數)

完全數:6,28,496,……(所有因子相加等於自身)

斐波那契數:1,1,2,3,5,8,13,21,……

……

二. 數論與資料分析:

數論既有實驗性也有理論性。試驗部分常常首先出現,它引出問題並揭示回答問題的方法。理論部分隨之而來,在這部分人們設法進行論證,給出問題的最後答案。概括來說,研究步驟如下:

1.積累資料,通常是數值資料,但有時更抽象

2.分析資料,設法找出模式與關係

3.形成結石模式與關係的猜想(即猜測),通常借助公式來表達這些猜想

4.通過手機額外資料、檢查新資訊是否符合猜想來驗證你的猜想

5.設計你的猜想成立的論證(即證明)

這五個步驟在數論及資料探勘中非常重要。有了收集的資料,一般來說找出一些解釋並不太難,科學理論的正確驗證是它能夠**還沒有進行的試驗結果。換句話說,只有當人們進行了新資料對比試驗時,資料探勘的理論才成為可信的。

在資料分析研究中,人們需要證明步驟,即斷言的邏輯序列,它從已知事實開始,以所希望的結論結束。

解密大資料的核心 資料探勘

大資料現在火到不行,究其原因是大資料的價值引得各大企業趨之若鶩。其實大資料之所以價值潛力無窮,其核心是資料探勘,挖掘找到人們所需要的有價值的東西。然而這個過程又是怎樣的呢?如何開始?如何通過資料探勘過程中找到我們需要的東西,這個過程又是什麼?總結的過程也是乙個學習的過程,通過有章節的整理對目前正在的...

核心資料結構之對映

對映也稱之為關聯陣列,它是一組唯一鍵的集合,每個鍵與特定的值相關。一般支援至少三個操作 linux提供了乙個簡單而有效的對映資料結構,它不是通用目的的對映,而是為特殊用例設計的 將uid 唯一標識號 對映到乙個指標。除了提供三個主要的對映操作,還基於add操作的基礎上提供了乙個allocate操作。...

核心資料結構之紅黑樹

紅黑樹是一種自平衡的二叉查詢樹,是linux主要的二叉樹結構。紅黑樹有乙個特殊的顏色屬性,要麼紅色,要麼黑色。紅黑樹通過強制以下條件來保證紅黑樹仍然是半平衡的。上述屬性表明,最深的葉子的深度不會超過最淺的葉子的深度的二倍。這樣,該樹總是半平衡的。在linux中,紅黑樹稱為rbtree。分別宣告和定義...