python資料分析

2021-09-28 20:49:38 字數 788 閱讀 7996

data.describe()檢視資料的基本資訊

資料特徵分析求極差:極差=最大值-最小值

決定組數與組距:組距根據業務特點去取,組數=極差/組距

決定分點,最小值在第一組,最大值在最後乙個組

列出頻率分布圖

繪製頻率分布直方圖

對比分析將兩個相互聯絡的指標進行比較,絕對數比較和相對數比較。

統計量分析用統計指針對定量資料進行統計描述。

集中趨勢度量:1.均值,2.中位數,3.眾數

離中趨勢度量:1.極差,2.標準差,3.變異係數,4.四分位數間距

python主要資料探索函式

資料整合將不同的資料來源合併在一起的時候,可能多個資料來源表達的實體是不一致的

資料變換

最小-最大規範化也叫離差標準化,將值對映到【0,1】之間,x*=(x-min)/max-min,缺點:可能接近0,如果有新的值不再最大最小之間就要重新計算。

零-均值規範化 x*=x-x(平均)/w,w為原始資料的標準差,

小數定標規範化:x*=x/10*k

常用的離散化方法:等寬法,等頻法,基於聚類分析的方法

資料規約

python主要資料預處理函式

總結:資料規約也就是資料降維,現在常用的是pca(主成份分析方法)

聚類分析

python資料分析

以網路爬蟲為例,網路爬蟲是乙個自動提取網頁的程式,爬蟲是搜尋引擎的第一步,也是最容易的一部。網頁搜尋,建立索引,查詢排序 用c c 效率高,速度塊,適合通用搜尋引擎做往往爬取。但是它的缺點也特別明顯 開發慢,寫起來又臭又長的。而python無論在資料分析還是在指令碼自動化編寫尚都是簡單,易學的。良好...

python資料分析

陣列間的算術運算 npwhere pandas的使用 np.random.rand 3,4 產生乙個3行4列的矩陣 0 1之間的 in 32 data1 1,2,3,4.0 in 34 arr1 np.array data1 in 35 arr1 out 35 array 1.2.3.4.in 37...

python資料分析

1.資料分析的含義與目標 2.python與資料分析 3.python資料分析大家族 4.python環境搭建 一 numpy 功能 ndarray 多維操作 線性代數 官網 numpy是python語言的乙個擴充程式庫。支援高階大量的維度陣列與矩陣運算,此外也針對陣列運算提供大量的數學函式庫。nu...