資料科學究竟是什麼?

2021-09-20 05:00:30 字數 2882 閱讀 6698

資料科學是一門將資料變得有用的學科。它包含三個重要概念:

統計機器學習

資料探勘/分析

資料科學的定義

如果你回顧一下資料科學這個術語的[早期歷史](),會發現有兩個主題密切相連:

大資料意味著計算機的使用頻率增加。

統計學家很難將紙張上所寫演算法用計算機實現。

由此,資料科學得以出現。早先,人們將資料科學家視作會編碼的統計學家。如今看來,這種說法並不準確,首先讓我們回到資料科學本身。

推特給出的定義circa 2014

之後,對資料科學的定義便層出不窮,例如conway的維恩圖,以及mason和wiggins的經典觀點。

drew conway對資料科學的定義

維基百科上對資料科學的定義更接近於我給學生講授的內容:

資料科學僅是一種概念,它結合了統計學、資料分析、機器學習及其相關方法,旨在利用資料對實際現象進行「理解和分析」。

簡單來講:資料科學是一門將資料變得有用的學科。

現在你也許不禁會問,「這會不會太簡單了,『有用』怎麼就能包含所有的術語呢?」

先看下圖,該圖內容與維基百科給出的定義十分契合:

這些都是什麼,我們又如何知道處於圖中所描述的哪個階段呢?

統計學家和機器學習工程師的區別不在於前者使用r,而後者使用python。由於眾多原因,按照sql、r、python進行分類是不合理的,其中最重要的原因是軟體會更新。目前,已經可以用sql來處理機器學習問題。

我建議可按如下方式進行區分:

這究竟指的是什麼呢?沒錯,就是決定!當所有你需要的事實對你可見時,你可以通過描述性分析做出盡可能多的決定。

我們的行動和決定會影響到我們周圍的世界。

接下來我們將繼續**如何讓資料變得有用。對我來說,有用的概念與影響世界的行動緊密相連。舉個形象的例子:如果我們相信聖誕老人的存在,那聖誕老人這個概念就不重要了,除非它可能會以某種方式影響我的行為。然後,取決於這種行為的潛在後果,它可能開始變得非常重要。

下圖是決策導向圖,您可以通過以下三步讓資料變得有用。

資料探勘

如果你不知道你要作何決定,最好的辦法就是去尋找靈感。這就是所謂的資料探勘、資料分析、描述性分析、探索性資料分析或知識發現。

分析的**準則:只對你所見的下結論。

除非你知道如何制定你的決策,否則就從尋找靈感開始吧。做法很簡單,只需要你將資料集想象為你在黑暗的房間中發現的一堆底片。資料探勘就是讓裝置盡可能快地公開所有的,這樣你就能看到這些上是否有什麼鼓舞人心的東西。和**一樣,不要把你看到的東西想得太嚴肅。你沒有拍這些**,所以你對螢幕之外的東西了解不多。資料探勘的**法則是:只對你能看到的做出結論,不對你看不到的做出結論,因為你需要統計資料和更多的專業知識。

除此之外,你還應盡力做到最好。資料探勘的專業知識是通過檢查資料的速度來判斷的,不要迷戀那些看似有趣的東西。

暗房一開始很嚇人,但其實也沒什麼大不了的。只要學會操作裝置就行。這是r語言的教程,這是python語言的教程。當你開始玩得開心時,你可以稱自己為資料分析師,當你能夠以閃電般的速度****以及所有其他型別的資料集時,你就可以稱為專家分析師。

統計推斷

靈感很容易獲取,但嚴謹卻很難做到,如果你想掌握資料,則需要專業課程的學習。作為一名統計學專業的本科生和研究生,我認為統計學推論(簡稱統計學)是這三個領域中最難且最具哲學思想的。想要做好它需要花費不少的時間。

如果你打算做出高質量且風險可控的決策,由於決策不僅僅依賴你所得到的資料,此時你需要在你的分析團隊中加入統計技能。

在情況不確定的時候,或許統計學能夠改變你的想法。

機器學習

機器學習從本質上來講,是使用示例而非指令來實現操作的。我也曾寫過一些關於機器學習的文章,包括機器學習與人工智慧有何不同、如何入門機器學習、企業運用機器學習的經驗教訓以及向孩子介紹監督學習等。

資料工程

資料工程指的是將資料傳遞給資料科學團隊的工作。它本身就是乙個複雜的領域,通常而言,它更接近於軟體工程,而不是統計學。

資料工程與資料科學的差異是前後的區別。

獲取資料之前的大部分技術工作都可以被稱為「資料工程」,而獲取到資料後我們所做的一切都是「資料科學」。

決策智慧型

決策智慧型是關於決策的,包括基於資料的大規模決策,這使得它變成了一門工程學科。利用社會和管理學科的觀點,增強資料科學的應用。

決策只能是社會和管理學科的組成部分。換句話說,它是這些資料科學的超集,而不涉及為通用用途建立基本方法之類的研究工作。

以上為譯文

本文由北郵@愛可可-愛生活 老師推薦,阿里云云棲社群組織翻譯。

文章為簡譯,更為詳細的內容,請檢視原文

《科學究竟是什麼》 科學哲學入門好書

科學哲學是對科學活動的反思。科學依賴於歸納,然而歸納雖然是實用的但是是不可靠的。然後有了波普爾的證偽主義,庫恩的正規化革命,拉卡托斯的研究綱領等等流派。證偽主義的思路其實很簡單,也很重要,是判定科學性的乙個判據。就是看理論是否可能提出反例來,就是不能證偽的一些理論不能稱為科學的,包括弗洛伊德的心理學...

Bundle 究竟是什麼?

bundle用於場景 在我印象中比較深刻的是,一般用於activity之間傳遞數值,也用於handler傳送訊息,如下 intent intent new intent bundle bundle new bundle bundle.putstring key value intent.putext...

分析EOF究竟是什麼

eof僅僅是一種狀態或者說條件,需要觸發。read呼叫遇到檔案結尾,觸發該條件,結果將返回0。針對eof,對於標準輸入裝置,普通檔案,管道檔案,網路套接字檔案是read如何觸發呢?下面程式將說明 server.c 是socket套接字服務端,目的為了網路套接字檔案是read如何觸發測試用的。serv...