資料分析之資料採集

在資料分析前我們要先有資料，這就要考慮資料的**了。資料的**基本上有兩種：直接**和間接**。通俗點說，直接資料就是通過我們採集的資料，間接資料就是我們引用別人的資料。自己採集的資料可靠性高，靈活度好，但採集比較麻煩；引用別人資料的方式雖然簡單，但資料可靠性要大打折扣。

資料**

資料屬性

備註直接資料

日誌資料

某人在某時某地通過某種方式做了某事有了某結果

狀態資料

某人的某個屬性在某個時間點的狀態

間接資料

主體相關資料

雖然不是你採集的，但卻是反應你研究主體的資料

參照資料

用其他的類似事物的資料替代你研究主體的資料

直接資料又可以分成日誌資料和狀態資料。日誌資料反映事物發生變化的蹤跡，狀態資料反映事物在某個時間點的狀態情況。比如，你在瀏覽某個**時的蹤跡就可以當成日誌資料，而該**各個網頁在某個時點的訪問量就是狀態資料。日誌資料通常可以推導出一些狀態資料，但考慮到日誌資料的數量相當龐大，處理起來比較麻煩，所有就直接採集狀態資料，比如在每個網頁加乙個計數器。

採集日誌資料著實是乙個非常複雜的問題，這主要是體現在：

1）事物的複雜性導致採集點的設定和採集內容的選擇尤其困難。雖然可以通過「某人在某時某地通過某種方式做了某事有了某結果」的方式把要採集的內容說清楚，但這裡涉及的主體往往太多，而且很多還存在互動的關係（具體怎麼做要看行業和要求，當然在遊戲行業我已總結出了一套可行方法）；

2）資料量非常龐大（如，我公司目前乙個小遊戲一天的日誌量就達到兩三千萬條的日誌），這就導致一系列的問題，比如：業務本身伺服器的壓力，日誌傳輸伺服器的壓力，資料庫的壓力等等，不過還好這些都是能通過錢解決的。

3）資料處理過程複雜（因行業不同，複雜度不一樣）。有了這些資料後我們要將這些日誌按主題的方式處理成我們便於分析的各種表，俗稱etl。以我現在的情況看，每天我要將採集的日誌處理成一百多張表，這裡面有分有合。

相比之下，狀態資料就好處理多了，我們只要選定需要的屬性，再按照一定週期去把資料做快照拉回來，形成一套動態的狀態資料表（但數量依然是非常的龐大）。

至此，直接資料就形成了。你瞧是不是非常之複雜，我在理順遊戲直接資料採集這件事上就花了將近半年的時間，而且是一版再版反覆多次（後續我會將這套方案用專題的方式與各位分享）。

在間接資料方面主要存在以下方面的問題：1）能不能有你想要的資料主要看命；2）資料質量不可靠，這個不可靠不單是資料質量的問題，還有就是對資料定義的不一致（或者叫口徑不一致）。針對第乙個問題，於是我們出現了間接資料裡的「參照資料」，比如說，你想知道北京的人口是多少，但你找不到，你可能會去參考與北京規模相近的城市（如上海）的人口資料。

資料分析之資料採集

Python資料分析之資料採集獲取技能樹（爬蟲）

資料分析之遊戲內關鍵資料分析

招聘資料採集 Hive資料分析資料視覺化

資料分析之資料採集

Python資料分析之資料採集獲取技能樹（爬蟲）

資料分析之遊戲內關鍵資料分析

招聘資料採集 Hive資料分析 資料視覺化

相關推薦

招聘資料採集 Hive資料分析資料視覺化