資料分析簡單流程

2021-08-29 08:09:18 字數 865 閱讀 7271

基本統計分析又叫描述性統計分析,一般統計某個變數的最小值,第一四分位值,中值,第三四分位值,以及最大值。

常用的統計指標:

指標panda方法或屬性

計數size()

最大值max

最小值min

求和sum

平均值mean

方差var

標準差std

顯示各個等分值

describe()

根據分組字段,將分析物件劃分為不同的部分,以進行對比各組之間差異性的一種分析方法。

常用的統計指標:計數,求和,平均值

分布分析是指根據分析目的,將資料(定量資料)進行等距或者不等距的分組,進行研究各組分布規律的一種分析方法;舉例來說,把年齡12-80的一群人分為[20歲以下, 20-29, 30-39, 40以上],在比較各組人數多少

交叉分析通常用於分析兩個或兩個以上,分組變數之間的關係,以表形式進行變數間關係的對比比較

分為:在分組的基礎上, 計算各組成部分所佔的比重,進而分析總體內部特徵的一種分析方法。

研究現象之間是否存在某種依賴分析,並對具有依存分析的現象**其相關方向以及相關程度,是研究隨機變數之間的相關關係的一種統計方法。

相關係數r取值範圍

相關程度

0<=|r|<0.3

低度相關

0.3<=|r|<0.8

中度相關

0.8<=|r|<=1

高度相關

函式作用

返回值dataframe.corr()

就會計算每個列兩兩之間的相關性

dateframe

series.corr(other)

計算series與傳入的序列之間的相關度

數值,大小為相關度

資料分析流程

主要使用pandas資料報來處理資料,以及常用到的pandas裡的函式。在這裡我們需要引入庫 import pandas as pd 並且規定下面縮寫 pd.read csv filename 從csv檔案匯入資料 pd.read table filename 從限定分隔符的文字檔案匯入資料 pd....

資料分析流程

資料庫中沒有的資料,利用python進行資料清洗,將資料根據對應字段錄入資料庫。根據下浮率和 公式 利用資料庫中的資料進行視覺化,制定資料分析報告。暫時還不需要實現網頁的功能,軟體僅在公司內部使用。1 許部安排人員將上個月的所有商業標建立資料夾,按照投標檔案,中標檔案的方式,統一儲存。2 搭建mys...

1 資料分析流程

進入公司後發現公司內主要遵循了以下圖中的資料分析流程,名為crisp dm cross industry standard process for data mining。此為業界認可的用於指導資料探勘工作的方法。在具體實踐中,業務理解,資料理解是十分重要的部分,間接決定了資料準備的複雜度。建立模型...