在資料科學行業,求職被拒的原因其實就這幾個

2021-09-26 09:00:17 字數 3158 閱讀 9162

原因2: 概率論和統計學知識

原因3: 軟體工程小竅門

原因4:商業嗅覺

除了上面的原因,還有……

原創 讀芯術 2019-07-12 11:07:42

全文共3713字,預計學習時長7分鐘

很多想要在資料科學行業尋找一席之地的人正在慢慢意識到這個問題:在資料科學這個領域應聘,想得到求職或者面試反饋是基本不可能的。

網際網路公司對這些資訊守口如瓶有很多原因。其一,公司給出的每一條拒絕理由都可能招致法律訴訟。其二,很多人並不能很好地消化負面訊息,有些人甚至會變得十分偏激。其三,如果要這麼做的話,想想面試官要花多長時間寫一篇構思精良的反饋給幾十個甚至上百個應聘的人。除此之外,公司並沒有從中得到任何好處。

於是,就出現了一大批困惑、迷茫又想要有所成就的資料科學家。但好訊息是:在這個行業,求職被拒的原因其實也就那麼幾個,針對這些不足還有很多方法來進行彌補。

不管是技術性還是非技術性的技能,應聘者所不具備的也正是這些公司迫切需求的,本文旨在對這些問題進行**。

大部分資料科學模型都基於python環境。在使用python語言處理資料結構時,僅有少數工具能將新手和經驗豐富的老手區分開來。如果你指望通過建立特別出眾的專案來吸引雇主的注意,這些工具能迅速拉開你和其他人的差距。

要想促使自己擴充資料科學理論方面的知識,提高實踐能力,可以在專案中嘗試以下幾個方法:

你應該熟練掌握pandas函式,比如.corr(),scatter_matrix(),.hist() 和.bar()這些語句的使用。你應該時刻注意,利用主成分分析(pca)原理或者t-sne的方法將資料視覺化,在python語言中可以使用sklearn的pca和tsne。

在90%的情況下,資料集會有很多並不需要的特徵,這些特徵會耗費不必要的除錯時間,還很可能會出現過擬合的現象。這就要求資料科學家們熟練掌握基本的篩選方法(如scikit-learn庫的variancethreshold函式和selectkbest函式)和稍顯複雜的基於模型的特徵篩選方法(如selectfrommodel)。

使用超引數搜尋的方法來尋找最優模型。資料科學家一定得知道gridsearchcv函式是什麼、怎麼用。randomsearchcv函式同理。要想出類拔萃,你可以用skopt庫中的bayessearchcv這個函式來實驗一下,看看怎麼將貝葉斯優化法運用到超引數搜尋中。

sklearn中的pipeline庫可以幫助你一站式完成資料預處理、特徵選擇和建模這些步驟。如果你對pipeline不熟悉的話,那就說明你應該加強對建模工具包的學習。

概率論和統計學方面的知識並不會在資料科學的工作中單獨應用,但它們是所有資料科學工作的基礎。所以,如果你還沒仔細研究過下面這些知識的話,那你就很容易把面試搞砸了。

這是概率論的基礎,在面試中經常出現。你可以練習一些基礎的貝葉斯「白板」問題,並且閱讀下面這本著作來深刻理解這個法則的含義和來由。

基本的概率論知識。你應該知道怎麼回答下文這些問題。

在分類問題中,很多新手習慣以模型的精確度作為衡量標準,這樣做通常不是乙個很好的選擇。你應該習慣使用sklearn的precision_score,recall_score,fl_score,和roc_auc_score等函式並了解其背後的理論知識。對於回歸問題,知道為什麼用均方誤差(mean_squared_error)而不用平均絕對誤差(mean_absolute_error)也同樣重要,反之亦然。花時間去弄清列在sklearn官方檔案中的所有模型評估標準是很值得的。

資料科學家被要求做軟體工程工作的情況越來越多。很多雇主都要求應聘者管理好自己的**,在筆記本和草稿上留下清晰的注釋。尤其是以下幾個方面:

你應該知道怎麼使用git系統,並且能用命令列和自己的github庫遠端互動。如果你還不能做到的話,建議你從下面這個教程開始。

這有點類似與網頁開發:有時候你需要通過從網頁直接抓取資料,將資料採集自動化。beautifulsoup和scrapy是兩個非常不錯的網頁抓取工具。

學會字串的使用。不要濫用行間注釋。將長函式拆成短函式,越短越好。10行以上的函式都不應該出現在你的**中。每個函式都應該清晰地命名,function_1不是乙個好名字。在給變數命名時遵循python語言的規則,要像這樣like_this,不能像likethis或者這樣likethis。乙個python模組(.py格式的檔案)中的**不要超過400行**。每個模組都要有乙個明確的目的,比如data_processing.py,predict.py)。學習if name == 『main』語句是什麼,為什麼重要。使用列表解析(list comprehension)。不要濫用for迴圈。最後要記得給你的專案附上乙個readme檔案。

似乎有很多人認為只要自己技術夠硬,就能被心儀的公司錄取。其實不然。事實上,公司更青睞能更快帶來效益的員工。

這就意味著求職者不僅技術要過關,還要掌握一些其他的技能。

大多數人在沉浸於「資料科學學習模式」時,都會遵循一系列步驟:匯入資料、分析資料、清理資料、資料視覺化、建模、模型評估。

如果你是在學習乙個新的庫或者一項新的技能的話,這些步驟沒什麼不好。但在商業環境中,這種類似於「無人駕駛」的工作模式是乙個不好的習慣,因為上班時間的每一分、每一秒,你做的每一件事情都是公司在為你買單。你得培養自己的商業思維,思考怎麼妥善安排好自己的時間,為團隊和公司做出有意義的貢獻。

這裡介紹乙個方法,在開始一項資料科學專案之前,先思考一下你要用它達到乙個什麼樣的目的,先給自己提幾個問題,這樣你就不會中途被一些所謂的ds工作流(workflow)等無關的工作打亂思路。把這些問題想得越實用越好,當你完成整個專案之後,再回過頭想想這個專案有沒有幫你認真回答這些問題。

公司希望雇用的員工在調整工作模式時能夠顧全大局,並思考清楚一些問題。比如,「我現在負責的工作是因為它真的對團隊和公司有實際幫助,還是因為我能在裡面使用我自己喜歡的演算法?」或者「我應該優化哪些重要的商業指標呢?有沒有更好的方法來改善?

管理層需要你來告訴他們哪些商品賣得好,哪些使用者轉而使用了競爭者的產品,你得說出個所以然來。但他們不懂(也不屑於去了解)什麼是查準率/查全率曲線,也不知道你為了防止模型過擬合做出了多大的努力。所以,用淺顯易懂的方式來讓你的聽眾明白你做出了什麼成果,有什麼影響,這也是資料科學家必須具備的一項技能。

關於求職被拒的原因,沒有比上述理由更詳盡的了,從筆者目睹的百餘個新手資料科學家求職和面試指導案例,以及與面試官的溝通結果看來,70%的人是因為上述理由被拒。

但記著,像性格這種定義比較靈活的東西也可能會被算作考量的標準之一。如果你和面試官不是很合得來,談話進行地不是很順利或者很尷尬,就很有可能你的硬實力是夠的,但是面試官覺得你的氣場和公司文化不是很符合。很多技術大牛也會因這種理由被拒,所以別太放在心上!

如何開啟資料科學行業的大門 下

轉行是一項工程。它需要乙個戰略計畫,乙個時間表,和具體的 現實的 小目標。問自己以下問題 我為什麼想成為一名資料科學家?我對哪些學科感興趣?我是否要辭掉工作去專門花時間學習我需要的技能,還是要在當前工作的同時進行轉型?我擅長什麼?我的弱點是什麼?我願意在轉行上花多少時間金錢?在新的職業道路上,我需要...

雲計算重塑生命科學行業,北鯤雲加速生物製藥企業轉型

科技的發展加速了許多行業的發展,雲計算的日漸成熟也在不斷地重塑著生命科學行業,從而使得傳統的藥物研發企業面臨著從研發成本到藥物 途徑乃至專利到期等諸多問題,不斷攀公升的研發成本,導致藥物 途徑減少,進一步導致研發效率降低,甚至最終影響到專科到期前能否將研發成本收回。因此,許多藥物研發企業不得不考慮如...

力壓 R,Python 在資料科學領域風生水起

tiobe 最新發布的 9 月程式語言排行榜中,python 憑 4.67 的增速以 0.26 的優勢力壓 c 逆襲成功進入 top 3。tiobe 9 月程式語言 top 5 而近一年勢頭不滅的 python 在資料分析領域,是專家們的必備技能。隨著 it 行業的增長,對有經驗的資料科學家的需求也...