Python3 資料分析(一) 相關庫介紹

2021-09-01 10:49:59 字數 2306 閱讀 3340

這些庫都是第三方庫,python自帶的標準庫中沒有,所以要先安裝才能使用:

第三方庫名稱

簡介numpy

提供陣列支援,以及相應的高效的處理函式

scipy

提供矩陣支援,以及矩陣相關的數值計算模組

matplotlib

強大的資料視覺化工具、繪相簿

pandas

強大、靈活的資料分析和探索工具

statsmodels

統計建模和計量經濟學,包括描述統計、統計模型估計和推斷

scikit_learn

支援回歸、分類、聚類等的強大的機器學習庫

keras

深度學習庫,用於建立神經網路以及深度學習模型

gensim

用來做文字主題模型的庫,文字挖掘可能用到

python並沒有提供陣列功能,雖然列表可以完成基本的資料功能,但它不是真正的陣列,而且在資料量較大的時候,使用列表的速度會讓人慢的難受。numpy提供了真正的陣列功能,以及對資料進行快速處理的函式。numpy還是很多更高的第三方庫的依賴庫。

numpy學習教程:numpy中文文件、易百教程——numpy教程、菜鳥教程——numpy教程

#!/usr/bin/env python3

# -*- coding:utf-8 -*-

import numpy as np

a = np.array([2, 0, 1, 5]) # 建立乙個一維陣列

print(a) # 輸出一維陣列a:[2 0 1 5]

print(a[3]) # 輸出第四個元素:5

print(a[:3]) # 輸出前三個元素:[2 0 1]

print(a.min()) # 輸出最小值:0

a.sort() # 將a的元素從小到大排序,此操作會直接修改a,因此這時a變成了[0 1 2 5]

print(a)

b = [1, 2, 3] # 建立乙個列表

print(b) # 輸出列表:[1,2,3]

print(min(b)) # 輸出最小值:1

c = np.array([[1, 2, 3], [4, 5, 6]]) # 建立乙個二維陣列

print(c)

print(c * c) # 輸出陣列的平方陣

d = [[1, 2, 3], [4, 5, 6]]

print(d)

執行結果:

[2 0 1 5]

5[2 0 1]

0[0 1 2 5]

[1, 2, 3]

1[[1 2 3]

[4 5 6]]

[[ 1 4 9]

[16 25 36]]

[[1, 2, 3], [4, 5, 6]]

scipy提供了真正的矩陣,以及大量基於矩陣運算的物件和函式。

scipy包含的功能有最優化、線性代數、積分、插值、擬合、特殊函式、快速傅利葉變換、訊號處理和影象處理、常微分方程求解和其他科學與工程常用的計算。

scipy依賴於numpy,因此安裝scipy之前要先安裝numpy。

學習教程參考:scipy學習教程

matplotlib是乙個繪相簿,用於資料的視覺化,它主要用於二維繪圖,也可以進行簡單的三維繪圖。

因為matplotlib預設的字型是英文本型,所以中文會無法正常顯示,解決的辦法是在作圖之前手動指定預設字型為中文字型,如黑體(simhei):

plt.rcparams['font.sans-serif'] = ['simhei']  # 修改matplotlib的預設字型為黑體,以正常顯示中文
另外,儲存作圖影象時,負號有可能顯示不正常,可通過以下**解決:

plt.rcparams['axes.unicode_miuus'] = false  # 解決儲存影象時,負號(-)顯示為方塊的問題
小建議:有時間可以多去matplotlib提供的「畫廊」看看它做出來的漂亮效果(畫廊:

學習教程:numpy matplotlib庫

pandas是python下最強大的資料分析和探索工具。它包含高階的資料結構和精巧的工具,使得在python中處理資料非常快速和簡單。pandas構建在numpy之上,它使得以numpy為中心的應用很容易使用。

pandas的功能非常強大,支援類似於sql的資料增、刪、查、改,並且帶有豐富的資料處理函式;支援時間序列分析功能;支援靈活處理缺失資料等。可以閱讀pandas主要作者之一wes mckinney寫的《利用python進行資料分析》一書,學習更詳細的內容。

學習教程:pandas教程

MySQL資料庫一 相關概念

資料庫 database 是按照資料結構來組織 儲存和管理資料的倉庫。每個資料庫都有乙個或多個不同的 api 用於建立,訪問,管理,搜尋和複製所儲存的資料。我們也可以將資料儲存在檔案中,但是在檔案中讀寫資料速度相對較慢。所以,現在我們使用關係型資料庫管理系統 rdbms 來儲存和管理大資料量。所謂的...

python3資料分析之Numpy

ndarray 儲存風格 ndarray 相同型別 list 不同型別 並行化運算 ndarray支援向量化運算 底層語言 c語言,解除了gil 1.屬性 ndarray.shape 大小 幾行幾列 ndarray.ndim 維度 幾維 ndarray.size 多少個元素 ndarray.item...

做資料分析為何要學統計學(3) 相關性分析

相關性是量化不同因素間變動狀況一致程度的重要指標。在樣本資料降維 通過消元減少降低模型複雜度,提高模型泛化能力 缺失值估計 異常值修正方面發揮著極其重要的作用,是機器學習樣本資料預處理的核心工具。樣本因素之間相關程度的量化使用相關係數corr,這是乙個取之在 1,1 之間的數值型,corr的絕對值越...