學習大資料科學的五大誤區

2021-09-11 07:24:56 字數 1973 閱讀 2858

習大資料科學的五大誤區,這是由作者在塞巴斯蒂安·福卡德(dr. sébastien foucaud)博士的幫助下一起完成的,他在指導和領導學術界與行業領域的年輕資料科學家方面擁有20多年的經驗。學習大資料科學的五大誤區

一、kaggle成才論

你通過參加kaggle比賽,練習了資料科學領域的各項技能。如果你能把決策樹和神經網路結合起來那就再好不過了。說實話,作為乙個資料科學家,你不需要做那麼多的模型融合。請記住,通常情況下,你將花80%的時間進行資料預處理,剩下的20%的時間用於構建模型。

作為kaggle的乙份子對你在很多方面都有幫助。所用到的資料一般都是徹底處理過的,因此你可以花更多的時間來調整模型。但在實際工作中,則很少會出現這種情況。一旦出現這種情況,你必須用不同的格式和命名規則來收集組裝不同**的資料。

做資料預處理這項艱苦的工作以及練習相關的技能,你將會花費80%的時間。抓取影象或從api中收集影象,收集genius上的歌詞,準備解決特定問題所需的資料,然後將其提供給膝上型電腦並執行機器學習生命週期的過程。精通資料預處理無疑會使你成為一名資料科學家,並對你的公司產生立竿見影的影響。

二、神經網路(neural networks)無所不能

在計算機視覺或自然語言處理的領域,深度學習模型優於其它機器學習模型,但它們也有很明顯的不足。

神經網路需要依賴大量的資料。如果樣本很少,那麼使用決策樹或邏輯回歸模型的效果會更好。神經網路也是乙個黑匣子,眾所周知,它們很難被解釋和說明。如果產品負責人或主管經理對模型的輸出產生了質疑,那麼你必須能夠對模型進行解釋。這對於傳統模型來說要容易得多。

正如詹姆斯·勒(james le)在乙個偉大的郵件中所闡述的那樣,有許多優秀的統計學習模型,自己可以學習一下,了解一些它們的優缺點,並根據用例的約束來進行模型的實際應用。除非你正在計算機視覺或自然語言識別的專業領域工作,否則最成功的模型很可能就是傳統的機器學習演算法。你很快就會發現,最簡單的模型,如邏輯回歸,通常是最好的模型。

三、機器學習是產品

在過去的十年裡,機器學習既受到了極大的吹捧,也受到了很大的衝擊。大多數的初創公司都宣稱機器學習可以解決現實中遇到的任何問題。

機器學習永遠都不應該是產品。它是乙個強大的工具,用於生產滿足使用者需求的產品。機器學習可以用於讓使用者收到精準的商品推薦,也可以幫助使用者準確地識別影象中的物件,還可以幫助企業向使用者展示有價值的廣告。

作為一名資料科學家,你需要以客戶作為目標來制定專案計畫。只有這樣,才能充分地評估機器學習是否對你有幫助。

四、混淆因果和相關

有90%的資料大約是在過去的幾年中形成的。隨著大資料的出現,資料對機器學習從業者來說已經變得越來越重要。由於有非常多的資料需要評估,學習模型也更容易發現隨機的相關性。

當發現資料中的關係模式時,就要應用你的領域知識。這可能是一種相關性還是因果關係呢?回答這些問題是要從資料中得出分析結果的關鍵點。

五、優化錯誤的指標

機器學習模型通常遵循敏捷的生命週期。首先,定義思想和關鍵指標。之後,要原型化乙個結果。下一步,不斷進行迭代改進,直到得到讓你滿意的關鍵指標。

構建乙個機器學習模型時,請記住一定要進行手動錯誤分析。雖然這個過程很繁瑣並且比較費時費力,但是它可以幫助你在接下來的迭代中有效地改進模型。參考下面的文章,可以從andrew ng的deep learning specialization一文中獲得更多關於改進模型的技巧。很多初學者,對大資料的概念都是模糊不清的,大資料是什麼,能做什麼,學的時候,該按照什麼線路去學習,學完往哪方面發展,想深入了解,想學習的同學歡迎加入大資料學習qq群:458345782,有大量乾貨(零基礎以及高階的經典實戰)分享給大家,並且有清華大學畢業的資深大資料講師給大家免費授課,給大家分享目前國內最完整的大資料高階實戰實用學習流程體系

-

HTTPS的五大誤區

如今,https協議正在被廣泛重視和使用。隨著今年2月初,谷歌旗下chrome瀏覽器宣布將所有http標示為不安全 許多 都爭相從http公升級到了https。當你開啟很多 時,會發現瀏覽器左上角有一把綠色的安全鎖,這把鎖就證明該 已經使用了https加密保護。之所以會實現https加密保護,主要是...

學習資料科學的五大免費資源

一旦我開始,我就愛上了這個領域,並且已經培養成資料科學的角色。我很幸運能夠在日常工作中使用python來執行複雜的分析,並構建和部署機器學習模型。我在全職工作期間實現了這一目標,成本非常低 我估計這個成本不到500美元 而且沒有在該領域接受任何正規教育。我堅信通過實踐方法學習,並且在過去幾年中,通過...

五大資料儲存模型

今天和同事聊起列式儲存clickhouse資料庫,資料庫的選擇原來這麼多。就是傳統的資料庫,如mysql,oracle,postgresql。相比較與列式儲存,最明顯的特點就是把一行中的資料值串在一起儲存起來,然後再儲存下一行的資料。列式儲存是相對於傳統的行式儲存來說的,最大區別就是資料時是按照列來...