如何判斷資訊的可信度，避免被數字欺騙？

感謝關注天善智慧型，走好資料之路↑↑↑

歡迎關注天善智慧型，我們是專注於商業智慧型bi，人工智慧ai，大資料分析與挖掘領域的垂直社群，學習，問答、求職一站式搞定！

通過網際網路資訊，我們可以看到很多的資訊，但是，該如何判斷資訊的可信度呢？例如看到新聞列舉的平均工資、各種知識付費新聞等等，我們該如何取捨呢？是別人怎麼說，我們就怎麼聽，還是自己去**真實性呢？

我想，在開始研究資料的真實性前，我們需要先來了解什麼是描述統計學？前面也有文章對這個進行了說明，在這裡做個總結。

描述統計學有平均值、中位數、四分位數、標準差、標準分等。

其中，當有異常值時，用平均值來描述資料，就會帶來誤導性資訊，例如平均工資，如果10個人中9個人的工資都是1000元，第10個人是10000萬，那麼就會大大的提高平均值，但是實際上拿到高薪的人屬於少數，這就給找工作的人帶來了誤導。因此，平均值在遇到異常值的時候，不可取。

在這種情況下，我們就可以選擇中位數或者是四分位數，中位數和四分位數都可以很好的體現出數值在一系列資料中的位置，所以，當我們想知道這系列的資料的某個數值處於什麼位置的時候，就可以參考中位數和四分位數，其次，四分位數可以判斷可能的異常值，特別是我們分析一組資料時通過畫箱線圖形式表現四分位數時，可以直**到資料是否存在異常值。

我對標準差的理解從定義上看就是相當於是資料的離散程度，如果標準差較大，說明數值和平均值之間差距較大，也就是離散程度比較大，如果標準差較小，說明資料的離散程度較小。例如，理解了標準差，我們可以通過標準差判斷乙個產品的製造過程是否在可控範圍內，若標準差過大，說明產品在製造過程中的波動較大，這個時候就需要對原因進行分析。

最後是標準分，標準分就是某資料的相對排名，可以在各資料集中進行比較。簡單點說，就是將資料按照一定的比例進行標準化，然後可以跟不同型別的資料進行比較，主要是通過它們的相對排名來比較。例如中考成績出來後，學生們的分數排名，就是一種標準分形式。

為了更直觀的表示上面四種描述統計學，我找到了之前在招聘**上爬取的招聘資訊進行分析，主要是分析工資這一欄資料。

1、平均值

在r語言中，計算平均值是用mean（）函式進行計算。具體結果：

2、中位數、四分位數和標準差

分析學歷跟工資的關係：

educationdata <- newdata[,c(6,12)]library(dplyr)educationdata1 <- group_by(educationdata,education)educationdata1 <- summarise(educationdata1, mean=mean(meanmoney),##平均值 midmoney=median(meanmoney),##中位數 sdmoney=sd(meanmoney),##標準差 q1monry=quantile(meanmoney,c(.25)),##下四分位數 q2monry=quantile(meanmoney,c(.5)),##第二四分位數/中位數 q3monry=quantile(meanmoney,c(.75)))##上四分位數

在r語言中，可以用median()函式計算中位數，quantile()函式計算四分位數，sd()函式計算標準差，結果如下：

因為高中學歷的招聘數只有乙個，所以標準差不存在。從資料中可以看到每個學歷的平均值和中位數有差距，其中都是平均值大於中位數，也就是說存在異常值，且異常值屬於較大值，此時資料向右偏斜，我們可以畫出箱線圖進行驗證是否如此：

boxplot(meanmoney ~ education, data=educationdata, main="education vs meanmoney", xlab="education", ylab="meanmoney")

從箱線圖可以看出，學歷為本科、大專、不限都出現了異常值，且學歷為本科的異常值較大，對平均工資造成了一定的誤導。後續分析需要注意。

3、標準化

由於這段資料沒有標準化的需要，所以我隨機生成了一些資料進行標準化練習：

math <- seq(70,100,2)english <- seq(80,110,2)chinese <- seq(30,60,2)score <- data.frame(math,english,chinese)scorezscore <- scale(score)zscore

對資料進行了標準化後，使得原本不具備可比性的三科成績可以進行乙個比較，也就是說將三個不同的資料按照乙個標準進行標準化，我們可以知道這些資料的相對位置。

總結因此，當我們看到一些資料的時候，先不要被它的描述語言迷惑了，應該讀出其中的含義，看看是否屬於語言陷阱，誤導我們，給出乙個被掩蓋的事實，將這四種描述統計學應用在生活中。強烈推薦有興趣可以看看《赤裸裸的統計學》這本書，看完後，會發現在生活中統計學是如此的有用。

如何判斷資訊的可信度，避免被數字欺騙？

輸出的可信度

可信計算可信度量度量的起點

應優先大力發展智慧型環境安全可信度評價演算法

如何判斷資訊的可信度，避免被數字欺騙？

輸出的可信度

可信計算 可信度量 度量的起點

應優先大力發展智慧型環境安全可信度評價演算法

相關推薦

可信計算可信度量度量的起點