初入資料科學領域,你需要有七個這樣的思維

2021-08-28 10:01:23 字數 2366 閱讀 6190

假設你剛剛被一家小型軟體公司聘為資料科學家。你感到欣喜若狂!你的辛勤工作和堅持不懈終於得到了回報。是時候將你的統計資料和機器學習知識付諸實踐了。那麼恭喜你終於加入了資料革命。

對於大多數初級資料科學家加入小型公司(甚至是世界科技巨頭之外的組織)。作為曾經又過這樣經歷的人,我想概述一些實用的想法,以幫助初級資料科學家在一家小型軟體公司開始。這些步驟來自我個人的旅程和我之前的其他旅程。

當我第一次在nulogy擔任資料科學家時,我急於繞過繁瑣的入職流程,因為我只想玩資料。我花了幾個月的時間才意識到,如果沒有正確理解我所運營的網域名稱,就很難提出並證明新專案的合理性,以便為業務帶來哪些好處。

作為資料科學家,你需要了解你目前所屬行業的細節。你還可以就如何進行探索性資料分析,自我批判你的發現並調查異常情況。擁有強大的專業知識使你能夠執行更好的特徵選擇和工程設計。實際上,構建模型來優化系統而不了解當前系統如何工作的潛在細微差別是失敗的乙個因素。

僅僅理解你的公司為資料科學家提供職位描述並不意味著他們對該職位的內容有深刻的理解。我的意思是讓我們面對現實:有時我們也不會。我曾經讀過一位資料科學主管的文章,他在開始擔任新角色後,花了30%或更多的時間在整個組織內建立對資料科學和機器學習的共同理解(這是原始故事)。對於資料科學家在機器學習領域開展工作而言,這是乙個很好的開始。你可以選擇使用r或python教授課程,或者提供課程讓你及周圍的人圍繞統計分析和機器學習建立直覺。這對於幫助同事識別機器學習和資料科學有很大等幫助同時這也幫助你周圍的人了解你的具體操作,這樣在工作協同等時候更得心應手。

這可能是最重要的,也是最容易解釋的。一位新的資料科學家應該是這樣理解的:

了解資料的產生和收集方式至關重要,因為它使你能夠確定你是否可以按原樣信任資料,或者是否需要進一步預處理才能使用或呈現資料。了解資料庫的基礎架構將加快查詢過程,並幫助你最大限度地減少在提取資料時所犯的錯誤。確定需要收集哪些資料以實現公司的資料科學戰略(你應該在整個中發揮重要作用)也很重要。

資料科學家的角色不應侷限於a / b測試、建立模型和發現相關性。相反,資料科學家應該在組織中建立資料驅動的文化中發揮關鍵作用。乙個很好的起點是使你對所有員工所做工作的訪問民主化。airbnb有一篇很棒的文章,關於建立它所謂的「知識回購」。知識回購的目的是促進整個組織的知識共享,最簡單的方法是使用jupyter筆記本和r降價檔案記錄所有資料科學工作,並使組織中的任何人都可以輕鬆訪問它們。你可以通過共享使用shiny建立的簡單應用程式將其提公升到新的水平,使你的同事能夠操縱輸入並觀察輸出(數字或繪圖)如何變化。

當作為小公司的第一位資料科學家時,很可能不會立馬有機器學習策略。通過識別機器學習機會並立即建立複雜模型來嘗試開始工作可能會令人沮喪。這是因為你仍然不熟悉業務領域,你還沒有沉浸在公司的資料基礎架構中,甚至可能沒有資料管道設定!

該怎麼辦?專注於小勝利。

組織中的每個級別都存在資料疏忽問題。你可以解決重要領域的實體,通過資料驅動的決策支援銷售和營銷,幫助產品團隊設定,跟蹤和評估kpi,同時在公司的資料科學路線圖中並行工作。

這裡的關鍵是讓立即證明自己的價值。

我們中的許多資料科學家都陷入了解決數學複雜問題和構建機器學習演算法的**力。也就是說,現實情況是,我們認為「有趣」問題的很大一部分不會帶來任何回報給我們的雇主。這些問題充其量只能充當冷靜的對話啟動者。

對於資料科學家而言,關注能夠為其組織帶來投資回報(roi)的問題極為重要。問問自己,在這個專案上話費了多少美元?乙個好的建議是讓利益相關者參與構思過程,例如產品經理,客戶經理或更好的實際客戶。

同樣,知道何時停止也很重要。例如,投資回報率是否會將模型的準確度提高5%,證明所需的努力和資源是合理的,還是模型在當前狀態下足夠好?讓roi和道德規範成為資料科學決策的兩個指導原則。

在資料科學中,重要的是要提前考慮。你下一季度的資料科學遊戲是什麼?到年底怎麼樣?明年呢?從我卑微的經歷來看,這項任務很難單獨完成;你需要產品管理和高階管理人員的幫助,以了解資料科學最適合的位置以及最大化roi的位置。然而,構建和傳播資料科學路線圖對於傳達資料科學在組織中的作用和重要性至關重要。

我沒有資料可以證明這一點,但資料科學家在工作中不能長時間存在的理論已有詳細記載。潛在的主題往往是資料科學家沒有受到足夠的挑戰,因此他們總是在尋找「更**」的事情。儘管如此,大多數中小型軟體公司的原始現實是,資料科學不是乙個具有深思熟慮戰略和預定目標的預定義角色。這是乙個具有巨大未開發潛力的新發現領域,其中大部分需要在利潤、資料分析、統計和機器學習以及有針對性的資料通訊之間確定和建立正確的橋梁。總而言之,資料科學是乙個過程,有乙個開始,有時不那麼明確的結束。

初入職場 插曲 你的成長代價

寫這一篇完全是乙個工作插曲,因為發生了一件工作中的事情,所以想寫出來,給初入這一行的工程師 程式設計師引以為戒 經過描述 公司利用週末的時間安排對伺服器上的oracle9i進行公升級,直接公升級到oracle11g,對原有的資料備份後,在oracle11g上還原 就是這個公升級操作,問題出來了 當對...

初入資料庫分庫分表

參考 1,分區分表分庫 2,切分方案 3,分表的實現 集群 1,分割槽 分表 分庫 分區分表 分庫直接含義 將一張表的資料分成n多塊區域 將一張表分為n多小表 將儲存在乙個庫的資料分塊儲存在多個庫上 實現方式 每張完整的表包含.myd資料檔案 myi索引檔案 frm表結構檔案 user p p1.m...

力壓 R,Python 在資料科學領域風生水起

tiobe 最新發布的 9 月程式語言排行榜中,python 憑 4.67 的增速以 0.26 的優勢力壓 c 逆襲成功進入 top 3。tiobe 9 月程式語言 top 5 而近一年勢頭不滅的 python 在資料分析領域,是專家們的必備技能。隨著 it 行業的增長,對有經驗的資料科學家的需求也...