資料科學家之路 個人學習歷程和入門規劃

2021-08-27 03:57:48 字數 3048 閱讀 5354

本文分為兩部分:第一部分介紹我學習的過程,第二部分介紹對新人的指導規劃

總覽下我的學習過程,我的學習過程分為一些幾個階段:

平台在這裡:       另外我有我同學給我的魚c至尊會員號,需要的話可以跟我要。

總結:python語言基本理論會的的差不多了

(2)2023年7月4號 - 8月22號:提前來到學校,老師給我安排了乙個資料收集的任務,做的事情就是下面我的簡歷裡寫的那樣,基本每個平台寫四天,寫完之後去找老師匯報,在這個過程中練會了兩個技能:python資料爬取和python基本語法。

資料爬取也就是爬蟲那些東西,同時練會了python常用的容器的使用,基本通過這乙個月的工程鍛鍊把python語法練熟了。

此外有挑選的看了《機器學習實戰》中的以下章節:k-鄰近、決策樹、樸素貝葉斯、logistic回歸、adaboost元演算法、回歸、k-均值、pca降維,這樣有挑選看的,每章**一點點琢磨看通執行調通,並將k-鄰近、決策樹、樸素貝葉斯、logistic回歸**寫三遍(一遍抄寫、二遍有點感覺的抄寫、三遍自己寫不懂的回看)。

總結:通過工程鍛鍊學會python的基本使用,學會了資料爬取,機器學習方面學會了淺層理論(不會推導),知道了一些演算法的實現思想,如何用python不掉包實現基本機器學習演算法。

書主要看的是《統計學習方法》,基本算是一本書看透了,從感知機開始到隱馬模型,最後一章條件隨機場沒看,因為感覺沒用到(最近發現,nlp裡面要用到條件隨機場,又學了一遍,這本書算是看完了),算是把機器學習的大部分演算法的原理理解的差不多了。

此外有一門講的非常好的課,會乙個個介紹機器學習演算法,並程式設計介紹怎麼實現(如果提前看了 《機器學習實戰》,會覺得課程很輕鬆,不然真的是 這門課一半以上人都聽不懂),這門是研一上學期賈老師的機器學習 課程。

總結:通過乙個個機器演算法理論的學習,最主要的是樹立了自信,知道了每個演算法怎麼過來的,而不是剛開始時候感覺會點東西,但是又感覺什麼都不會,並且看著自己寫的筆記,能很快在面試前重新掌握這個演算法(找工作時候別人很看重你對推導過程的理解)

(3)2023年12月- 寒假:這段時間因為老師回國了,老師讓學習深度學習方面的知識,並在學會後做成ppt跟老師交流,所以我們開始了學習深度學習的過程,這段時間學習的成果就是給你們的5個ppt,我們當時分別學習了:dnn(深度神經網路)、cnn(卷積神經網路)、rnn(迴圈神經網路)、遷移學習、強化學習理論,並學習了乙個多月的深度學習框架tensorflow, 我們當時是這樣的,乙個多星期學習dnn,將dnn原理、推導過程、外加乙個案例做成第乙個ppt,乙個多星期學習cnn,將cnn原理、推導過程、常用cnn網路做成第二個ppt,依次下來完成5個ppt,並在做案例過程中學習對tensorflow框架的使用。

書籍沒咋地看,看了本《tensorflow實戰》

總結:乙個多月時間學習了深度學習常用演算法的理論,掌握了深度學習框架tensorflow,並在做ppt過程中把整個深度學習常用的演算法理解透了。

(4)2023年3月開始 -4月初:下學期生活,開始時候跟你師姐一起每天都在學習tensorflow框架,看了很多書,其中看完了《tensorflow技術解析與實戰》(強烈推薦)、《神經網路和深度學習》、看並敲**看了三分之二的《tensorflow機器學習實戰指南》,以及《tensorflow實戰》,就這些吧,一直在練習tensorflow框架的使用,這樣的生活持續到清明節。

總結:這段時間主要是迫切想鍛鍊工程能力,收穫是對tensorflow用的更熟練了。

(5)2023年清明節-2023年6月:老師讓打kdd cup比賽,kdd cup2018任務是**未來48小時的空氣質素,但是感覺自己除了會點演算法什麼都不懂哎,就在qq群裡問誰想打比賽,結果一呼百應,來了5個人一起,外加本校的乙個、和你師姐,組成8人隊伍打比賽,之後乙個月裡面,開始看資料、問人怎麼去打資料探勘競賽,從基本的資料處理開始(慢慢的其他人都不靠譜,在群裡不怎麼回應了、我和你師姐就撐起隊伍,emm....因為是老師要求的不敢放棄)一點點的整理清洗資料、自己造特徵,用pandas做資料整理將資料轉成模型的結構,乙個多月時間,嘗試了時空殘差網路、gbdt、xgboost各種模型方案,每天早上7點來提交結果,下午三點等待線上分數和排名變化,這樣經過乙個多月時間直到比賽結束,得到最後很一般的排名80/4200,順便有乙個還行的簡歷內容。

認真打乙個比賽真的非常鍛鍊人,經過這次比賽,我主要是學會了一種技能:有了給你一些資料,你能直到怎麼對這些資料做處理、讓模型跑出好的結果的工程能力。  說著簡單,裡面卻是包含了非常多的東西,包括資料預處理,怎麼組織資料、怎麼處理異常資料、怎麼做資料變換、怎麼有效整理儲存資料、怎麼選模型、怎麼跑模型、怎麼調和融合模型得到好的效果,並且認識了好多大佬,交了一些名校的朋友,增長了很多見識,算是融進資料科學這個圈子裡了。

書看的是:《利用python進行資料分析》

此外研一下學期有門講的非常好的課,名字叫大資料重建方法,專門講pandas、numpy、matplotlib這些做資料處理需要的東西,你們可以學習下。

總結:這段時間最大的收穫就是打了一場頂級資料探勘賽事,通過這個過程鍛鍊了工程能力,學會了應對真實世界不乾淨、複雜資料的處理方法,掌握了怎麼利用機器學習知識和深度學習知識解決實際問題的流程, 使得之前學習的理論基礎切實的學以致用,感受到人工智慧的強用途,並為自己的簡歷填色。

(6)2023年6月-至今:將之前打的比賽寫成**,給老師做用強化學習應用於路徑規劃的事情,做了個國網問答的專案,打kaggle上的賽事,為自己簡歷積攢點內容,就這些把,碼太多,手有點累。

總結:6個階段把,慢慢來吧,祝你們好運!

資料科學家的成長之路

背景 平凡之路 凡事預則立,不預則廢。結合國內外的行業現狀,和資料科學領域的培養模式,我把資料科學的學習過程分成以下四個級別 入門 初級 中級 高階。吃瓜群眾就是喜歡分級,哈哈哈 高階之上,我認為還有乙個級別 高階,強調跨學科的綜合能力,以及團隊協作能力。由於我不是科班出身,學得不夠系統,所以現在的...

華裔科學家張首晟 個人資料完全由個人擁有

經多方 確認,知名美國華裔物理學家 史丹福大學終身教授張首晟被曝於12月1日去世,年僅55歲。2007年,張首晟教授發現的 量子自旋霍爾效應 被 科學 雜誌評為當年的 全球十大重要科學突破 之一。張首晟教授生前高度評價區塊鏈技術,並對區塊鏈行業有深入研究和重要貢獻。在張教授提出的大資料觀點中,有這樣...

大資料到底好學嗎 資料科學家論與大資料學習知識誤區

地球推薦乙個大資料學習群 119599574晚上20 10都有一節 免費的 大資料直播課程,專注大資料分析方法,大資料程式設計,大資料倉儲,大資料案例,人工智慧,資料探勘都是純乾貨分享,你願意來學習嗎?大型資料應用程式是通用智慧型。人工智慧 從而提高人們對事物和決策能力的認識,最終實現社會的普遍智慧...