《資料科學家訪談錄》總結 5

2021-09-20 01:16:37 字數 2980 閱讀 1921

01 - 05:dj patil, hillary mason, pete skomoroch, mike dewar, riley newman

06 - 10:clare corthell, drew conway, kevin novak, chris moody, erich owen

11 - 15:eithon cadag, george roumeliotis, diane wu, jace kohlmeier, joe blitzstein

16 - 20:jonh foreman, josh wills, bradley voytek, luis sanchez, michelangelo d』 agostino

21 - 25:michael hochster, kunal punera, sean courley, jonathan goldman, william chen

michael hochster

教育背景:加州大學伯克利分校理論數學學士,史丹福大學統計學博士

職業經歷:谷歌、微軟、linkedin,**公司潘多拉的研究主管

對大學的反反覆覆證明數學公式沒有興趣;第乙份工作是在一家紐澤西的只要公司,但是製藥業受到的監管很多,不夠自由,這個行業讓人感覺有一些法律行業的味道。

所以有一些基本的數學知識可以讓你在遇到奇怪的事情時不至於束手無策。幾乎無論你處理什麼問題,你總是會碰到一些奇怪的問題。在任何真實的生活工作經驗中,我從來沒有碰到過任何乙個教科書式規規矩矩的問題。它總是有一些奇奇怪怪的問題。你的受教育程度越高,你的工作經驗越豐富,你就會越覺得自己善於解決七七八八的小問題,想明白如何將原本看似複雜的東西看通透,使之適用於你所知道的東西。

在測試一些東西時,如果你能盡量地將其隔離起來完成測試,那麼結果將更有價值。

我確實認為對資料科學家這項工作來說,溝通需要是最重要的技巧之一。在招人的時候,在不同的技能之間總有一些權衡,但是良好的溝通能力是必需的。

kunal punera

教育背景:印度某大學·計算機學士,德州大學奧斯汀分校·資料探勘和機器學習博士

職業經歷:雅虎,relateiq,bento labs

我在雅虎研究院學會了全部的機器學習知識,而在relateiq學會了全部的軟體開發技術。

在程式設計方面,我認為掌握核心的程式設計理念是很重要的。

招聘資料科學家時,我最看重的東西是他們過往的機器學習是否全面、系統。我最想知道的問題是他們是否了解他們所採用的模型的底層原理。

sean courley

紐西蘭人,物理學家、男子十項全能運動員、政治顧問以及ted演講人

教育背景:牛津大學博士

職業經歷:nasa,quid的聯合創始人和首席技術官。

(注:我覺得這位是這25個人中最厲害的)

戰爭在2023年絕對是熱門話題,因為美國剛剛向伊拉克和阿富汗派遣了大量部隊。2023年,我們也看到了資訊產業的變化,因為我們開始可以從網上獲得資料**,比如網路上的部落格,那裡的暴力報道將通過不同的渠道傳播,所有這些資訊都可以通過機器來讀取。因此,我們不僅可以建立基於暴動的虛擬模型,還可以調整這些模型來精確地複製我們在實時收集的資料的統計特徵。

我們通過挖掘開源情報,獲得了比整個美**方還要優質的資料集。

我最終在五角大樓裡向四星將軍、來自美國**司令部的情報團隊和伊拉克駐美國大使做匯報。

2023年,在ted演講這項研究。同年,並在《自然》雜誌發表。

(利用相同的方法,研究下中國周邊的軍事環境應該挺有意思的。)

我經常跑步,每天花三個小時訓練十項全能、撐桿跳和跨欄。我認為進行體育鍛煉是非常必要的,因為它每天都能讓我清醒。

在我博士階段,每天只做差不多2個小時的工作。(注:碉堡了!)

jonathan goldman

教育背景:麻省理工大學物理學學士,史丹福大學物理學博士

職業經歷:埃森哲,linkedin,level up analytics,intuit公司的資料科學與分析團隊部門主任

我在為公用事業公司做**鏈方面的專案,我們在供給和需求方面做了許多的工作和其他一些型別的優化。

資料都已經在linkedin了,我可以很快就直接開始從資料中尋找答案。

開發了「你可能認識的人」。

找到符合你的價值觀的公司去工作,確保你的工作有機會能給世界帶來重大的變革和影響。我認為最重要的事情之一就是學會好奇。要努力去思考那些在未來可能會帶來燎原之勢的星星之火。一旦獲得了能幫你解答你好奇的問題的資料,你就請學者去解決和回答這些問題,無論用什麼技術,都盡量去嘗試。

william chen

本書作者之一

教育背景:哈佛大學的統計和應用數學雙學位

職業經歷:quora和etsy做資料實習生,quora全職

「那門課改變了我思考不確定性問題以及日常事務的方式,同時讓我明白了直覺與溝通的價值。在那門課的影響下,我在第二年將專業轉為統計學。」

大二開始在etsy實習。

大三成為了統計110課的助教。

我在實習期間的主要挑戰,特別是在quora,就是弄清楚如何考慮自己在做的一堆事情的優先順序,尤其當自己同時在做許多專案的時候。

我認為我在大學課程選擇方面的最大遺憾是沒有在大一學年選修程式設計課程。

謹防5個陷阱!資料科學家新手快速上道秘訣

在資料科學家入門階段,你不可避免會踩到一些雷區。這篇文章介紹了 s bastien foucaud 博士總結的新手資料科學家最容易犯的 5 個錯誤。博士已經有 20 多年帶領學術界和應用行業年輕資料科學家的經驗,可以幫讀者朋友少走些彎路,為你的實際工作提供一些指導和幫助。話不多說,上清單!1.熱衷於...

資料科學家需要了解的5大聚類演算法

聚類是一種涉及資料點分組的機器學習技術。給定乙個資料點集,則可利用聚類演算法將每個資料點分類到乙個特定的組中。理論上,同一組資料點具有相似的性質或 和 特徵,不同組資料點具有高度不同的性質或 和 特徵。聚類屬於無監督學習,也是在很多領域中使用的統計資料分析的一種常用技術。本文將介紹常見的5大聚類演算...

資料科學家需要知道的5種聚類演算法

編譯 bot 編者按 聚類是一種涉及資料點分組的機器學習技術。給定一組資料點,我們可以使用聚類演算法將每個資料點到分類到影象中的特定組中。理論上,同一組中的資料點應具有相似的屬性和特徵,而不同組中的資料點的屬性和特徵則應高度不同。聚類是無監督學習的一種方法,是用於多領域統計資料分析的常用技術。在資料...