資料分析之資料採集

2021-06-19 20:42:27 字數 1350 閱讀 8302

在資料分析前我們要先有資料,這就要考慮資料的**了。資料的**基本上有兩種:直接**和間接**。通俗點說,直接資料就是通過我們採集的資料,間接資料就是我們引用別人的資料。自己採集的資料可靠性高,靈活度好,但採集比較麻煩;引用別人資料的方式雖然簡單,但資料可靠性要大打折扣。

資料**

資料屬性

備註直接資料

日誌資料

某人在某時某地通過某種方式做了某事有了某結果

狀態資料

某人的某個屬性在某個時間點的狀態

間接資料

主體相關資料

雖然不是你採集的,但卻是反應你研究主體的資料

參照資料

用其他的類似事物的資料替代你研究主體的資料

直接資料又可以分成日誌資料和狀態資料。日誌資料反映事物發生變化的蹤跡,狀態資料反映事物在某個時間點的狀態情況。比如,你在瀏覽某個**時的蹤跡就可以當成日誌資料,而該**各個網頁在某個時點的訪問量就是狀態資料。日誌資料通常可以推導出一些狀態資料,但考慮到日誌資料的數量相當龐大,處理起來比較麻煩,所有就直接採集狀態資料,比如在每個網頁加乙個計數器。

採集日誌資料著實是乙個非常複雜的問題,這主要是體現在:

1)事物的複雜性導致採集點的設定和採集內容的選擇尤其困難。雖然可以通過「某人在某時某地通過某種方式做了某事有了某結果」的方式把要採集的內容說清楚,但這裡涉及的主體往往太多,而且很多還存在互動的關係(具體怎麼做要看行業和要求,當然在遊戲行業我已總結出了一套可行方法);

2)資料量非常龐大(如,我公司目前乙個小遊戲一天的日誌量就達到兩三千萬條的日誌),這就導致一系列的問題,比如:業務本身伺服器的壓力,日誌傳輸伺服器的壓力,資料庫的壓力等等,不過還好這些都是能通過錢解決的。

3)資料處理過程複雜(因行業不同,複雜度不一樣)。有了這些資料後我們要將這些日誌按主題的方式處理成我們便於分析的各種表,俗稱etl。以我現在的情況看,每天我要將採集的日誌處理成一百多張表,這裡面有分有合。

相比之下,狀態資料就好處理多了,我們只要選定需要的屬性,再按照一定週期去把資料做快照拉回來,形成一套動態的狀態資料表(但數量依然是非常的龐大)。

至此,直接資料就形成了。你瞧是不是非常之複雜,我在理順遊戲直接資料採集這件事上就花了將近半年的時間,而且是一版再版反覆多次(後續我會將這套方案用專題的方式與各位分享)。

在間接資料方面主要存在以下方面的問題:1)能不能有你想要的資料主要看命;2)資料質量不可靠,這個不可靠不單是資料質量的問題,還有就是對資料定義的不一致(或者叫口徑不一致)。針對第乙個問題,於是我們出現了間接資料裡的「參照資料」,比如說,你想知道北京的人口是多少,但你找不到,你可能會去參考與北京規模相近的城市(如上海)的人口資料。

Python資料分析之資料採集獲取技能樹(爬蟲)

系列文章總目錄 python資料分析及視覺化例項目錄 我乎上面爬蟲的教學內容很多,作為乙個資深爬蟲,就不贅述各家優缺,如果別人允許你爬取,也適可而止,至於多執行緒,分布式爬蟲,倆字 慎用!還有,get之外的post,用來做各種 機,也悠著點,嘿嘿.少點廢話直接上圖 各種優缺暫且不表 u can u ...

資料分析之遊戲內關鍵資料分析

什麼是遊戲的相關性,作為乙個分析的 偵探 那麼遊戲的相關性也就是線索,熟悉遊戲的相關性的 心法 就可以快速和正確選擇分析的切入點。本文主要通過找到lol遊戲中角色金幣,進而演示。基礎篇 演示直接找到角色金幣邏輯,高階篇 中將會演示如何通過金幣的和交易邏輯的相關性找到角色的裝備 1 選定第乙個裝備欄位...

招聘資料採集 Hive資料分析 資料視覺化

背景描述 近年來隨著it產業的快速發展,全國各地對it 類的人才需求數量也在不斷 增多,xhs集團 為了明確今後it產業人才培養方向,在多個省份進行 it公 司崗位情況調研分析。你所在的小組將承擔模擬調研分析的任務,通過在招聘 進行招聘資訊的爬取,獲取到公司名稱 工作地點 崗位名稱 招聘要求 招聘人...