資料科學統計學 什麼是偏度?

2022-06-14 10:21:10 字數 3306 閱讀 3455

作者|abhishek sharma

編譯|vk

**|analytics vidhya

偏度的概念已融入我們的思維方式。當我們看到乙個影象時,我們的大腦會直觀地分辨出圖表中的模式。

你可能已經知道,印度有超過50%的人口在25歲以下,65%以上的人口在35歲以下。

如果你畫出印度人口年齡的分布圖,你會發現在分布的左邊有乙個凸起,而右邊是相對平坦的。換言之,我們可以說有個偏度傾向於末端。

所以,即使你沒有讀過資料科學或分析專業人士的偏度,你肯定已經在非正式上與這個概念進行了互動。

在統計學中,這實際上是乙個相當簡單的話題,然而很多人在匆忙學習其他看似複雜的資料科學概念的過程中匆匆瀏覽了一下這個概念。對我來說,這是個錯誤。

偏度是資料科學和分析領域的每個人都需要知道的乙個基本統計學概念。這是我們無法逃避的。我相信你會在這篇文章的結尾理解這一點。

在這裡,我們將以最簡單的方式討論傾斜的概念。你將了解偏度、它的型別以及它在資料科學領域中的重要性。

所以,繫好安全帶,因為你會學到乙個在你整個資料科學職業生涯中都會重視的概念。

偏度是理想對稱概率分布不對稱性的度量,由三階標準矩給出。如果這聽起來太複雜了,別擔心!我來給你解釋一下。

簡言之,偏度是衡量隨機變數的概率分布偏離正態分佈的程度。現在,你可能會想,為什麼我在這裡談論正態分佈?

尾巴在右邊的概率分布是正偏態分布,尾巴在左邊的概率分布是負偏態分布。如果你覺得上面的數字令人困惑,沒關係。我們稍後會更詳細地了解這一點。

在此之前,讓我們來了解為什麼偏度對於作為資料科學專業人士的你來說是如此重要的概念。

現在,我們知道偏度是不對稱性的度量,它的型別是由概率分布尾巴所在的那一邊來區分的。但是為什麼知道資料的偏度很重要呢

首先,線性模型假設自變數和目標變數的分布相似。因此,了解資料的偏度有助於我們建立更好的線性模型。

其次,讓我們看看下面的分布。它是汽車的馬力分布:

你可以清楚地看到上面的分布是正偏度的。現在,假設你想把這個作為模型的乙個特性,它可以**汽車的mpg(英里/加侖)。

因為我們的資料在這裡是正偏度的,這意味著它有更多的低值資料點,也就是說,馬力較小的汽車。

因此,當我們根據這些資料訓練我們的模型時,它將在**低馬力汽車的mpg方面表現得比那些高馬力的汽車更好。

另外,偏度告訴我們異常值的方向。你可以看到我們的分布是正偏度的,並且大多數異常值都出現在分布的右側。

注意:偏度並不能告訴我們異常值的數量。它只告訴我們方向。

現在我們知道了為什麼偏度很重要,讓我們來了解一下我之前給你們看的分布。

是的,我們又回到正態分佈了。

正態分佈被用作確定分布的偏度度的參考。正如我前面提到的,理想的正態分佈是幾乎沒有偏度的概率分布。它幾乎完全對稱。因此,正態分佈的偏度值為零。

但是,為什麼它幾乎完全對稱而不是絕對對稱?

這是因為,事實上,沒有乙個真實的資料完全符合正態分佈。因此,偏度的值不完全為零;它幾乎為零。雖然零值被用作確定分布的偏度度的參考。

你可以在上圖中看到,同一條線表示平均值、中值和眾數。這是因為完全正態分佈的平均值、中值和眾數是相等的。

到目前為止,我們已經用概率或頻率分布來理解正態分佈的偏度。現在,讓我們用箱線圖來理解它,因為這是在資料科學領域觀察分布的最常見的方法。

上圖是對稱分布的箱線圖。你會注意到q1和q2之間的距離是相等的,即:

但這還不足以得出乙個分布是否傾斜的結論。我們還看一下線的長度;如果它們相等,那麼我們可以說分布是對稱的,也就是說,它不是傾斜的。

既然我們已經討論了正態分佈中的偏度,現在是時候了解一下我們前面討論過的兩種型別的偏度了。讓我們從正偏度開始。

正偏態分布是尾部在右側的分布。正偏態分布的偏度值大於零。你可能已經通過觀察這個數字了解到,平均值是最大的,然後是中位數,然後是眾數。

為什麼會這樣?

好吧,答案是,分布的尾巴在右邊;它導致平均值大於中值,平均值最終向右移動。此外,眾數出現在分布的最高頻率,即中位數的左側。因此,眾數《中位數《平均值

在上面的框線圖中,你可以看到q2靠近q1。這代表了乙個正偏態分布。根據四分位數,可以通過以下公式得出:

在這種情況下,很容易判斷資料是否傾斜。但是如果我們有這樣的圖呢:

這裡,q2-q1和q3-q2是相等的,但是分布是正偏度的。你們當中目光敏銳的人會注意到右線的長度大於左線的長度。由此,我們可以得出結論,資料是正偏度的。

所以,第一步總是檢查q2-q1和q3-q2的相等性。如果這是相等的,那麼我們尋找線的長度。

正如你可能已經猜到的,負偏態分布是尾巴位於左側的分布。負偏態分布的偏度值小於零。你還可以在上圖中看到均值《中值《眾數

在箱線圖中,負偏度四分位數之間的關係由以下公式給出:

與我們之前所做的類似,如果q3-q2和q2-q1相等,那麼我們尋找線的長度。如果左線的長度大於右線的長度,那麼我們可以說資料是負偏度的。

既然你知道傾斜資料會對機器學習模型的**能力產生多大影響,那麼最好將傾斜資料轉換為正態分佈資料。以下是一些可以轉換傾斜資料的方法:

:轉換的選擇取決於資料的統計特性。

歡迎關注磐創ai部落格站:

sklearn機器學習中文官方文件:

歡迎關注磐創部落格資源彙總站:

統計學 偏度和峰度的概念與計算

偏度 skewness 是統計資料分布偏斜方向和程度的度量,是統計資料分布非對稱程度的數字特徵。定義上偏度是樣本的三階標準化矩。偏度定義中包括正態分佈 偏度 0 右偏分布 也叫正偏分布,其偏度 0 左偏分布 也叫負偏分布,其偏度 0 峰度 peakedness kurtosis 又稱峰態係數。表徵概...

征服統計學02 什麼是正態分佈?

本文簡單介紹正態分佈 正態分佈簡介 正態分佈關鍵引數 均值 標準差 正態分佈曲線如何繪製 正態分佈曲線現象解釋 reference 正態分佈 normal distribution 又名高斯分布 gaussian distribution 又因其曲線酷似鐘形,得名鐘形曲線。還是以上篇提到的測量身高為...

資料科學 什麼是資料科學?

資料是現實世界運轉留下的痕跡。這些痕跡如何展示出來,則取決於我們採用什麼樣的資料收集和樣本採集方法。將具象的資料轉化為抽象的資料,過程是絕對主觀的。統計推斷 關注的是如何從隨機過程產生的資料中提取資訊。關於建模資料即資訊,不需要模型,了解相關性就夠了。anderson 這是錯誤的想法。什麼是模型 模...