資料探勘導論筆記之探索資料

2021-07-05 17:50:50 字數 1064 閱讀 1856

鳶尾花(iris)資料集可以從加州大學歐文分校(uci)的機器學習庫中獲取,包含150種鳶尾花的資訊,每50種取自三個原味鳶尾花種之一:setosa、versicolour和virgincia。每個花的特徵用下面5種屬性描述。

匯**計是量化的,用單個數或數的小集合捕獲可能很大的值的各種特徵。匯**計的。鳶尾花資料集和類屬性具有相同的頻率,因而中樞的概念並無意義。

對於連續資料,眾數沒有意義,但是眾數可能提供關於值的性質或者關於出現遺漏值的重要資訊。

給定乙個有序的或連續的屬性x和0與100之間的那數p,第p個百分位數xp是乙個x值,使得x的p%觀測值小於xp。統計學術語,如果將一組資料從小到大排序,並計算相應的累計百分位,則某一百分位所對應資料的值就稱為這一百分位的百分位數。可表示為:一組n個觀測值按數值大小排列。如,處於p%位置的值稱第p百分位數。百分是位於按一定順序排列的一組資料中某一百分位置的數值。一般用pp表示。如第70百分位數(p70),就是在按從小到大排列的一組資料中小於這數值有70%個頻數,大於這個數值有30%個頻數的那個數值。中位數就是第50百分位數。小於它有50%個頻數,大於它也有50%個頻數。它是百分位數中的特例。

指定0和100之間的百分位數p,丟棄高階和低端(p/2)%的資料,然後用常規方法計算均值,所得到的結果是。中位數是p=100%時的截斷均值,而標準值是對應於p=0%的截斷均值。

極差:range(x)=max(x)-min(x)=xm-x1

絕對平均偏差 aad 中位數絕對偏差(mad) 四分位數極差(iqr)

散步圖具有兩個作用,其一,它們圖形化的顯示兩個屬性之間的關係,判定線性相關程度。直接使用散布圖,或者使用變換後屬性的散布圖,也可以判定非線性關係。其二,當類標號給出時,可以使用散布圖考察兩個屬性將類分開的程度

有效性。用盡可能簡單的方法描繪複雜關係的能力。

必要性。對圖形和圖形元素的需要。與其它替代方法相比,圖形是提供資料的更有用的形式。

真實性。通過圖形元素相對於隱式或顯式尺度的大小,確定圖形元素所代表的真實值的能力。

資料探勘之資料探索

本文探索 1.探索類別特徵,檢視每個類別特徵有多少種類 2.探索數值特徵,離散化方式 3.去除大多數是同一值的特徵 4.處理時間型特徵 所需python包 from pandas import series,dataframe import pandas as pd一 檢視每個類別特徵有多少種類 d...

資料探勘導論 筆記

1.1為什麼進行資料探勘?資訊時代的來臨不貼切,我們的時代其實是資料時代,還沒有真正步入資訊時代,現在資料 增長,需要將資料轉化為知識。1.2什麼是資料探勘?即kdd,資料中的資料發現 知識發現的迭代步驟為 1 資料清理2 資料整合3 資料選擇4 資料變換5 資料探勘6 模式評估7 知識表示 廣義的...

資料探勘學習之資料探索

資料探索是資料探勘必不可少的一環,資料探索技術會對模型準確率的提高帶來驚喜的效果。1 什麼是資料探索?答 資料探索是通過繪圖 計算 等手段,分析資料集的資料質量 資料的結構 資料的趨勢和資料的關聯性,為資料探索之後的特徵工程階段打下堅實的基礎。2 資料探索的內容 資料的質量分析和資料的特徵分析 2....