深入淺出資料分析寶典

2021-10-24 23:18:17 字數 2825 閱讀 3242

資料分析真實專案流程
明確問題:明確問題是資料分析的第一步,必須明確資料分析真實需求;

理解資料:資料獲取和資料探索;

資料清洗:乙個資料分析專案大部分時間花在資料清洗上;

資料分析和視覺化:對清洗後的資料進行分析,並通過視覺化展現出結果;

結論和建議:對結果進行解讀,得出有價值的結論並提出相關的建議;

資料分析的方法:
深入淺出資料分析
資料分析引言:分解資料

資料分析師:如何將原始資料轉換完推進現實工作的妙策,如果分解和勾結複雜的問題和資料集。

資料分析流程:
確定:了解問題,確定問題。

分解:資料分析總的來說就是分析問題和資料,使其成為更小的組成部分。

評估:這才是分析大餐,你在這一步要對前兩步了解到的情況作出各種結論。

決策:最後,你把這些結論重新組合在一起,作出建議(乙個決策)。

客戶是分析結果的服務物件,你的客戶可能是你的上司,你所在公司的首席執行官,甚至是你本人。

評估:你已經成功的將問題分解成更小,更好的管理組塊,現在就是對這些組塊的進行更具體的評估了。

分析從你介入的那一刻開始,讓自己介入的意思就是作出自己的明確的假設,並且以自己的信用為自己的結論打賭。

無論是你在構建複雜度模型還是簡單的決策,資料分析就是你的一切:你的信念,你的判斷,你的信用。

提出建議:作為資料分析師,你的工作就是讓自己和客戶自習研究對資料的評估,洞察先機,從而有能力作出更好的決策;(你的作品要能簡單就簡單,但不能簡單過頭,你的工作確保自己的一件能夠傳達到位)

原始資料:所獲得的資料若未經任何處理,即稱為原始資料,為了讓他人提供的資料在你要進行的資料運算中發揮作用,幾乎總要調整資料。

千萬要確保原始資料,避免任何資料處理,即使是再好的資料分析師也會有失誤,必須能夠將自己的工作結果與原始資料進行比較。

3,最優化

尋找最大值:有的東西就想著多多益善,為此我們上下求索,要是能用數字表示我們不斷追求的東西,利潤,錢,效率

4.資料圖形化

圖形讓你更精明

體現資料:建立優秀的資料圖形是第一要務就是促使客戶謹慎思考並定製正確的決策,優秀的資料分析由始至終都是離不開「用資料思考」。

資料龐雜,而對於如何處理資料沒有把握,這時候就是記住你的分析目標就行了,記住目標,目標停留在和目標有關的資料上,無視其他。

只要資料圖形能夠解決客戶的問題,不管是精美扎眼還是平平無奇,都會對客戶有吸引力。

資料圖形化的根本在於正確比較。

為形成優秀的圖形,首先要明確能夠實現客戶目標的基本物件。

優秀的資料圖形的特點:

1,展示了資料,作出高明的比較,展示多個變數。

散點圖是探索性分析奇妙的工具,統計學家用這個術語描述在一組資料中尋找一些假定條件進行測試的活動。

分析師喜歡用散點圖發現因果關係,即用乙個變數影響另乙個變數的關係,通常用散點圖的x軸代表自變數,y軸表示應變數。

最優秀的圖形就是多元圖形:如果乙個圖形能對三個以上的變數進行比較,這張圖表則是多元圖形,再加上有效的比較是資料分析的基礎,於是盡快讓圖形多元化最有可能促成最有效的比較。

5.假設檢驗

假設並非如此

證偽法:一種切實有效非直覺的方法;

請勿試圖選出最合理的假設,只需要剔除無法證實的假設,這就是假設檢驗的基礎:證偽;

證偽法:很了不起的一種辦法,克服人們專注於錯誤答案而無視其他答案天然傾向。通過強迫自己以及完全正規的方式思考問題,會減少重要的特徵情況而犯錯誤的可能性。

選出最可信的第一種假設的做法叫做滿意法。(選出第乙個選項,其餘不做處理)

滿意法的缺點:當人們未對其他假設進行透徹的分析的情況下選取某種假設時,往往會堅持這個假設,即使反面證據堆積如山,也會往往視而不見。

證偽法缺點:讓人們對各種假設感覺更靈敏,從而防止掉入知識陷阱。

診斷性是證據所具有的一種功能,能夠幫助你評估所考慮的假設的相對似然,如果證據具有診斷性,就能夠幫助你對假設排序。

無法一一剔除所有假設,但是可以判斷那個假設最強。

10 ,**

回歸分析法力無邊,使用使用得當,就能幫助你**某些結果值,若只是耦控制實驗同時使用,回歸分析還能**未來。商家狂熱的運用回歸分析按住自己建立模型,**客戶行為。

回歸線就是最準確的貫穿平均值圖中的各個點的直線。

**的問題?

人們的措施

市場動態

重大時間

實驗結果

資料中未體現的資料

不能不問的問題:

我們有足夠的資料進行**嗎?

我們**的準確性如何?

是定性**還是定量**?

我的客戶能否順利利用這個**?

我的**有何侷限性?

誤差

合理誤差

世界錯綜複雜,**有失精準並不稀奇,不過如果在進行**的時候之處誤差的範圍,你和你的客戶就不僅能知道平均的**值,還能知道誤差造成的典型偏差。

**總是與機會誤差同在,你可能永遠也想不通自己的資料為什麼會出現機會誤差。

機會誤差=實際結果與模型**結果之間的偏差

無論是你的回歸無可挑剔,都免不了要進行那樣的**,這些**很少不偏不倚,這種實際結果與**結果之間的偏差叫做機會誤差。

在統計學中,機會偏差又稱為殘差,對殘差的分析是優秀的統計模型的核心。

書評 《深入淺出資料分析》

深入淺出系列的書被很多人譽為神書,其原因是文字詼諧,內容簡單,排版休閒。深入淺出資料分析 書是一本資料分析大雜燴,囊括了許多資料分析的方法,思維,工具,可把目錄中13個章節視作本書的13個分支。在本書中中,作者把讀者當作一名資料分析師,然後跟著他的腳步拜訪各個公司,解決客戶的難題。很有種自娛自樂的感...

深入淺出資料分析 二

針對問題的觀察結果 保濕霜的消費者是處於豆蔻年華的少女消費者。他們基本上是唯一的消費群體。acme正在嘗試增加用於擴充套件社交網路的廣告費,但是迄今為止,新做法是否成功尚未可知。我們看出產品在少女消費群體中的銷售潛力是無限的。acme的競爭者極為危險。針對資料的觀察結果 2月份的銷量與上年9月份的銷...

深入淺出資料分析 學習筆記

資料分析固定流程 心智模型 觀察研究法 被研究的人自行決定自己屬於哪個群體的一種研究方法 拆分資料塊 為了控制觀察研究混雜因素,有時需將資料拆分為更小的資料塊。這些資料塊更具有同質性,即資料塊不包含那些有可能扭曲你的分析結果及讓你產生錯誤想法的內部偏差。控制組不可控因素 可控因素 假設檢驗 證偽法 ...