《商業資料分析》讀書筆記(十二)

2021-09-08 03:02:01 字數 1861 閱讀 2683

12.其他資料科學任務和技巧

基本概念:我們的作為許多共同資料科學技巧基礎的概念;熟悉資料科學基礎版塊的重要性

共發和關聯:找到互聯的項

衡量驚喜:提公升和槓桿

例子:啤酒和彩票

臉書喜歡之間的關聯

畫像:找到典型行為

關聯**和社交推薦

資料約簡,潛在資訊,和電影推薦

偏差,方差和模型融合

資料驅動因果解釋和乙個病毒營銷案例

總結第十二章 其它資料科學任務和技術

基本概念:我們的基本概念是許多常見資料科學技術的基礎

; 熟悉資料科學構建模組的重要性。

示例性技術:

分析工程的重要性

業務問題本身提供了解決方案的目標和約束。資料和領域知識提供原材料。資料科學提供了將問題分解為子問題的框架,以及解決這些問題的工具和技術。

資料科學為我們提供了豐富的工具解決常見任務,分析工程就是要將問題解構成可以解決的問題。

共現和關聯:

發生a的時候也可能發生b。

如何量化關聯:

ab兩者同時發生的概率,比單獨發生的概率相乘要大很多。

用統計的方法,找到隱藏的經常同時發生概率較大的兩個或多個事件。

很好理解:假設ab完全無關,那麼共生的概率是p(a)*p(b).但是現實呢?

關於臉書的喜歡的。

我突然理解了為什麼資料科學界內的人都鼓勵(盡可能的)資料公開。

就是這樣同乙份的「喜歡」資料,各行各業不同背景的人會有不同的想法,不同的用處,這樣,乙份資料就夠產生多重價值。

盡可能的鼓勵資料公開。

了解公開的資料都在那裡也很重要。

分析:尋找典型行為

兩個人之間有什麼聯絡?

資料縮減,潛在資訊和電影推薦

在資訊對視所獲得的洞察力和可管理性之間先進行權衡。

乙個著名的比賽,網飛提供一百萬,給可以最好的**消費者對電影評分的方式。取勝隊伍主要源於:1.模型融合 2.資料縮減

獲勝者的一篇文章中提到,方法之一就是將模型建立在偏好背後的潛在維度上。資料科學中」潛在「一詞,指

「相關但未在資料中明確察覺到」

換句話說,就是他們進行了更好的特徵工程,找到了更有效的潛在特徵!

從實際資料中挖掘出二維潛在空間,以及在這個空間中展示的電影集合。從資料中挖掘出的這種潛在維度的解釋必須有資料科學家或商業使用者推斷。最常見的方法是觀察維度是如何分離電影,然後應用領域知識。

那麼如何找到重要的維度?

偏差,方差和模型融合

模型融合可以改善泛化效能。不僅僅是推薦,而是廣泛的跨越分類,回歸,類概率估計等等方面都可應用。

為了理解模型融合為什麼能夠改善模型的效能,先要了解模型產生的錯誤是什麼:

1.固有的隨機性(統計固有屬性)

2.偏差

3.方差

隨機性:擁有某些特徵的樣本,其目標值不一定是相同的。因為我們在訓練集中用一定特徵描繪的樣本,並不能完全描繪樣本。也就是說,我們的資料是不完全的,而且,這種不完全是絕對的。

偏差:通過學習曲線可以看到,無論資料量多麼大,模型精準度都不能達到完美(貝葉斯率)。

這涉及到了偏差-方差權衡

模型融合可以將高方差的模型進行平均,以見效**方差。

病毒營銷

這是乙個跨領域融合的例子:

社會學與資料科學:人們傾向於在社交網路中聚集與他們相似的人。

這意味著社交網路相關的人可能會有類似的偏好。這是乙個重要的資訊增益。

《商業資料分析》讀書筆記(八)

8.視覺化模型表現 基本概念 各種不確定性之下的模型效能視覺化 進一步思考到底要從資料探勘結果中得到什麼 主要技巧 效益曲線 累加相響應曲線 提公升曲線 roc曲線 排序而不是分類 效益曲線 roc圖和曲線 roc之下的區域 auc 累積響應和提公升曲線 例子 客戶流失模型效能分析 總結第八章 視覺...

pandas資料分析讀書筆記(二)

pd.isnull df 返回空的值為true,非空值為false 最常用的資料載入函式有 read csv 與read table pd.read table sep 如果是csv檔案,也可以用read table函式來讀取,只是需要設定分隔符sep pd.read csv header none...

讀書筆記 《深入淺出資料分析》讀書筆記

這本書呢它在每一章都安排了乙個企業問題,以解決乙個問題的形式去穿插知識點以及分析思路,可以快速掃讀了解一下分析思路還有思考一下課後問題。之前看見有些人推薦這本書,我才去看的,但是我並不推薦這本書,書裡的內容過於簡單,而且裡面的工具操作都落後了。確定問題 分解問題 將問題分解為更小的組塊 基準假設 評...