斯坦福 概率與統計 課程筆記(二) 從EDA開始

2022-06-13 17:00:21 字數 1667 閱讀 5718

本節課程先從統計分析四步驟中的第二步:eda開始。

課程定義了若干個術語,如果學習過機器學習的同學,應該很容易模擬理解:

舉個例子:

這是乙個用藥記錄表,其中每一行是乙個individual,每一列是乙個variable

variable可以細分為兩種:categorical variables 分類變數(也叫qualitative variables 定性變數)quantitative variables 定量變數

前者一般就是指離散型變數,後者一般指連續型變數。

課程中還提到另一種變數(或叫特徵)的分類方法:

注意上述四個度量方法之間,能夠用高精度的方法度量的變數,也可以轉為用低精度的方法來度量,比如年齡是ratio,其可以轉為用ordinal variable來度量(比如嬰兒期、幼兒期、青年、中年、老年等);但反之不行,比如冠軍和亞軍之間無法用interval variable或ratio來度量。

interval variable 和 ratio之間可能比較難區分,多看一些例子可能會好一些:

考試分數是哪種?答案是interval variable,因為0分是可以存在的,考試可以考0分,而不能說成0分表示根本沒參加考試;

老師在課堂上留給學生討論的分鐘數是哪種?答案是ratio,因為0表示老師根本沒留時間給學生討論,而一般不能說成「老師留了0分鐘給學生討論」;

有sense了嗎?interval variable的0表示事情發生了其結果是0(或可以發生結果是0的事情);而ratio的0表示事情根本沒發生(或根本不存在)。

從這裡開始,課程闡述了eda在做什麼——可以理解為觀察變數自身的特點、變數之間的關係、變數與結果之間的關係。

所以先從單個變數開始,即只看乙個變數自身的特點分析。

單個分類變數(categorical variables)一般可以用餅狀圖(pie chart)表示:

餅狀圖一般適合表示變數的每種取值與全域性的關係。

也可以用柱狀圖(bar chart)來表示:

柱狀圖一般適合表示變數的每種取值之間的對比(柱狀圖y軸的值可以從值value改為百分比percent)。

單個定量變數(quantitative variables)一般用直方圖(histogram):

莖葉圖(stemplot):

或箱線圖(boxplot)表示。

斯坦福 ios學習 筆記(二)

1.alloc用於記憶體分配,init用於初始化記憶體。2.當我們只是區域性使用數字型別的時候,不要用nsnumber,因為它只是將其傳遞給方法。3.nsninteger和unsigned int是一回事。nsninteger是64位無符號整型。4.作用是讓所以字串為字串物件。5.containso...

斯坦福EE261傅利葉變換與應用課程學習筆記一

課程目標 學習者能熟練的使用傅利葉變換,並且能靈活運用。課程內容 使用傅利葉工具解決物理問題 傅利葉級數 離散和連續傅利葉變及4性質。狄拉克函式 分布 廣義變換。卷積及相關應用。概率分布,取樣原理,濾波器,線性系統分析。離散傅利葉變換與快速傅利葉變換。多維傅利葉變換在影象分析中的應用以及在光學與晶體...

數學優化與凸集2(斯坦福凸優化筆記2)

1 直線和線段設 x 1 x2 為rn 空間中的兩個點,那麼具有下列形式的點 y x1 1 x2,r 組成一條穿越x1 和x2 的直線。如果 0,1 就構成了x1 和x2 之間的閉線段。2 仿射集合 如果通過集合c r 中任意兩個不同點的直線仍在集合中,那麼集合 c 是仿射的。這個概念可以擴充套件到...