2 1資料 資料型別及資料彙總

2021-08-10 19:09:40 字數 1523 閱讀 5846

2.1.1  資料型別

(1)資料:狹義上,資料就是數字;廣義上,資料的定義是:資料物件及其屬性的集合,其表現形式可以是數字、符號、文字、影象等。

(2)屬性:屬性是指乙個物件的某方面性質或特徵,乙個物件往往是通過乙個或多個屬性來刻畫的,屬性也稱為特徵、維、字段。

(3)資料集:資料集指的是資料物件的集合。

2.1.2  屬性型別

屬性型別 描述

例子分類的

(定性的)

標稱 其屬性值只提供足夠的資訊以區分物件

。這種屬性值沒有實際意義

。如三個物件可以用

a,b,c

區分,也可以用甲,乙

.丙區分

顏色、性別、產品編號。 序數

其屬性值提供足夠的資訊以區分物件的序。

成績等級

(優、良、中、及格、不及格

)、年級

(一年級、二年級、三年級、四年級)

數值的 (

定量的) 區間

其屬性值之間的差是有意義的。

日曆日期、攝氏溫度 比率

其屬性值之間的差和比率都是有意義的。

長度、時間和速度

2.1.3  資料集特徵介紹

(1)維度:資料集中的物件具有的屬性個數總和。(為避免高維度導致的維度災難,因此在資料預處理中經常會使用維歸約技術降低維度)

(2)稀疏性:又是在某些資料集中,有意義的資料非常少,非0項屬性不到1%(如文明本資料集)

(3)解析度:也稱為粒度,在不同解析度下資料的性質不同。

2.1.4  資料集的屬性

(1)記錄型資料:事務資料、資料矩陣、文字資料

(2)基於圖形的資料:全球資訊網、化合物結構

(3)有序資料:時態資料、序列資料、時間序列資料、空間資料、流資料

2.1.5  資料特徵

(1)中心趨勢度量:均值、中位數、眾數、中列數。

算術平均值:

加權平均值:

截斷均值:去掉高、低極端值p/2得到的均值。

中位數:中位數針對的主要是傾斜資料。

眾數:資料集中頻率出現最高的值。

中列數:資料集中最大值和最小值的平均值。

(2)離散程度度量:極差、方差、四分位數極差

極差:最大值與最小值的差

方差:

四分位數極差(iqr):

2 1 資料型別

資料型別是指資料在計算機內部的表達和儲存形式。根據性質和用途,資料被劃分為多種不同的型別。python基本資料型別包括數值型 字串型 邏輯型等。此外,python還有列表 元組 字典和集合等復合型別。數值型資料可以分為整型 實型和複數型。python語言的整型資料即是有符號整數,不帶小數點。在pyt...

Mysql Mysql資料型別彙總

mysql資料型別 含義 有符號 tinyint m 1個位元組 範圍 128 127 smallint m 2個位元組 範圍 32768 32767 mediumint m 3個位元組 範圍 8388608 8388607 int m 4個位元組 範圍 2147483648 2147483647 ...

mysql資料型別彙總

資料型別 位元組長度 範圍或用法 bigint 8無符號 0,2 64 1 有符號 2 63 2 63 1 binary m m類似char的二進位制儲存,只包含byte串而非字串,它們沒有字符集的概念,排序和比較操作都是基於位元組的數字值 bit1 無符號 0,255 有符號 128,127 bl...