人工智慧第三課 資料科學中的Python

2021-09-07 20:40:55 字數 1867 閱讀 7526

我用了兩天左右的時間完成了這一門課《introduction to python for data science》的學習,之前對python有一些基礎,所以在語言層面還是比較順利的,這門課程的最大收穫是讓我看到了在資料科學中python的真正威力(也理解了為什麼python這麼流行),同時本次課程的互動式練習體驗(datacamp)非常棒。

這門課程主要包括了6個單元的內容,一開始介紹了python的基本概念(常見資料型別和變數),從第二節開始講解列表在python中的使用,並且逐步演進,我們還學習了使用真正為data science準備的幾個package的應用。

從資料科學的角度來看,python可能真的是很適合的乙個程式語言和環境。這不光是因為他本身的語法比較簡單,而且目前已經有幾個非常強大的包(package)對其進行支援。

python中的list用來表示一系列的資料,它非常靈活,甚至可以在乙個列表中包含不同型別的資料,當然這樣也就帶來了一定的負面作用,例如效能。而numpy的array則是對list的一種改進,它進行規劃化(乙個array的軸上只支援同一種資料型別),並提供了更多的一些與資料科學的運算(函式)。

它自身的運算規則也跟列表有極大的區別,例如

numpy庫內置支援很多科**算的函式,不需要依賴其他庫

資料科學不光是對資料的處理,而且還需要對資料進行展示。目前全世界最流行的用來做資料視覺化的庫是matplotlib。

下圖是乙個最簡單的例子

請注意,圖形的資料**既可以是list,也可以是array,當然還可以是下面的終極解決方案dataframe,來自pandas這個庫。

numpy和matplotlib,可以很好地處理資料科學的場景。但如果資料量真的很大,則可能需要用到pandas了。

pandas提供了乙個全新的dataframe的物件,它是完全為科**算和統計而設計的,而且它自帶了視覺化元件庫,不需要額外依賴matplotlib。

從技術上說,dataframe很像是乙個excel**或者資料庫,它具有行和列的概念,也有索引的技術。

dataframe還支援從外部檔案(例如csv)或者網路位址載入資料,這將使得它真正具有實用的價值。

最後,我之前提到過了,本次課程給我最驚喜的乙個體驗是互動式練習。這是乙個第三方學習平台(datacamp)提供的,非常酷。

本地安裝jupyter,請參考 

第三課 資料型別

檢視資料型別函式 type 返回資料型別 int 整型 float 浮點型 bool 布林 str 字串 list 列表 tuple 元祖 dict 字典 set 集合 整型 int 整型int a 18 print type a 結果 浮點型 float 浮點型float a 18.888 pri...

第三課 key的操作

在redis中,除了 n 和空格,不能作為名字的組成內容,其他任何內容都可以成為key的名字部分。名字長度不做要求。values strings lists sets sorted sets hash key不要太長。佔記憶體,查詢慢 key不要太短,像u 1000 pwd不如user 1000 p...

我的csdn第三課

今天是csdn第三課,真的學到很多東西。本來考完英語四級心情很不好的,不過因為csdn的課,我很快忘掉了傷心,呵呵。1.插入路徑 src 檔案全名 相對路徑 子級目錄 子資料夾名稱 與html同級 檔案全名 2.插入中的其他屬性 alt 表示無法顯示時給出的提示 title 表示當滑鼠移動到位置時顯...