資料工作的本質 從業務中來,到業務中去

2022-10-11 12:18:08 字數 2970 閱讀 5939

資料工作的本質:從業務中來,到業務中去

資料工作就組成結構和流程來說還是比較簡單的,因為這個工作本來就很年輕,分工還沒有很細。總體來講,我把資料工作看成相互連線的三部分:取數、理數、用數,這是乙個閉環。用數的需求會驅動取數工作,並對取數工作提出具體操作性要求。

1.取數

取數工作解決的是資料來源的問題,具體來講是由下面的一系列工作組成:

設計並實現產品中取數的方法和規則

產品執行過程中,實時的或週期性的從產品端獲取資料。

傳輸、接收、校驗資料

格式化歸檔儲存資料。

經過取數工作後,就形成了由業務執行產生的原始資料。原始資料是極其豐富的,有很多種分類方法,而從使用者的觀點來看可以大致分為兩種。一種是使用者意識到的主動提供的,如註冊資料,發表的文字等;另一種是使用者不容易意識到的被動提供的,如上網ip位址,操作動作(像pc上的滑鼠移動,手機上的滑動)。

之所以用這個資料工作者不常用的維度來分類原始資料是想提醒產品經理在產品設計時也需要一點資料思維。能採用第二種方式得到資料,就不用第一種方式去麻煩使用者。

2.理數

整理資料。這一步並不是必須的,尤其對初創企業來說,直接用原始資料是更經常的事。一方面因為初創時期的業務重點還不在於資料問題,另一方面也因為一些原始資料是結構化的,直接入資料庫的,已經能用,比如使用者註冊資料。但隨著資料的豐富和業務重點的變化,理數就變得越來越重要,因為大部分原始資料是無法直接用於分析和再產品化的,比如ip位址,比如文字。

理數標誌性的工作就是對原始資料進行多層抽取、歸納、抽象的資料倉儲建設。如果說取數是從使用者中來,用數是到業務中去,那理數就是兩者的橋梁,是將來自使用者的資料原料轉換為可供研究、分析或形成資料產品使用的資料零部件、半成品。這其中就會涉及資料探勘工作。比如上面提到的ip位址,其本身並不能被直接使用,所以一般就會根據乙個ip位址資料庫將ip轉換為地區名稱。這就是將乙個原始技術資料轉為乙個有意義的業務資訊。

理數階段的資料探勘與用數階段的資料探勘

並沒有嚴格的區分,一般認為這個階段的主要任務是將需求更普遍,應用更廣泛的資訊從原始資料中挖掘出來以減輕後面用數的工作量。比如像使用者性別、年齡等基本屬性的挖掘。儘管大部分網際網路產品都會讓使用者填寫這些字段,但使用者填的叫原始資料。如果你直接使用原始資料,看上去是跳過了理數工作,但實際你是啟用了乙個理數的規則或模型,只不過輸入和輸出是一樣的。這個模型的開發和應用成本為0,但機會成本是多少就要自己判斷了。

當資料庫、資料倉儲準備好了零部件、半成品後,資料工作就要進入最眼花繚亂的用數階段了。

3.用數

使用資料有2個方向,一是為企業內部工作提供決策支援,二是直接為使用者提供獨立資料產品或資料支援下的產品新功能。

說到決策支援可能最先想到的是bi。狹義的傳統bi主要使用企業執行產生的內部資料,然後做些表單,柱狀、條形、折線等各式樣的圖,比較無聊的。現代網際網路化的決策支援,因為資料來源的不同而變得有趣的多得多。

比如我們曾經給公司人力資源部的招聘提供過乙個產品,就是根據招聘要求利用微博資料精準尋找候選人。當然找人只是第一步,評估人才能力,行為習慣,行業薪資水平等等資料工作都能發揮作用。甚至可以收集多方資料來做員工流失預警。所以網際網路資料基礎上的決策支援是可以支援到企業方方面面的工作,比如在網際網路公司中,決策支援類的資料應用就會有:

產品優化決策

產品經理最主要的工作就是抓到使用者需求點,然後設計出產品/服務來滿足它。雖然說需求點的發現往往是經驗性的定性的工作,但資料工作依然可以在兩方面給予優化決策:

二是,評估可能的市場規模和增長曲線。

新產品或新功能上線後,產品經理需要資料反饋來判斷使用者對自己設計的接受度。儘管pv、dau等總體性指標是能反應使用者對新產品/功能的態度,但因為是總體性的指標,它們的變化包含了太多的因素,比如推廣力度、運營活動等等。所以要更精確的看產品,一般更好的選擇是回訪率、使用時長、頻次、退出/跳出、轉化等使用者個體性指標的變化來衡量使用者反饋。

除了事後的監測,有時還會使用ab測試來檢驗不同設計的效果,以便提前獲知使用者偏好,降低新產品/功能的市場風險。這裡就會涉及到與取數工作的配合,ab測試進行部署時要根據需要選擇一定條件的兩組類似使用者推送測試內容,在使用者不知情的情況下看實際效果。

運營支援

網際網路產品的運營工作主要包括使用者運營、內容運營、活動運營和客戶服務。在每一塊上資料工作都能給予基礎性的支援。

比如使用者促活當中有乙個重要工作就是防流失。這裡就會碰到乙個流失判斷標準的問題。多長時間不來算流失?這個課題研究的關注點實際不是流失的那群使用者,因為你從他們身上是取不出流失時點資訊的,我們的關注點在那些很長時間沒有來,但最終在自然狀態(注:沒有召回和活動影響)下又回來的非流失使用者。從這群使用者身上我們才能發現乙個使用者最多經歷多長時間的沉寂後還有可能回來了,反過來長於這個時間就可以判斷流失。在實際研究中,你會發現有使用者在半年甚至更長時間後還會回來,這些從經驗上來說肯定不是自然狀態下回流的。於是判斷是否自然狀態又成為新問題,解決這個問題的乙個資料**是訪問**。

當然算出流失標準時間界限對防流失來說並沒有什麼直接的作用,這個標準實際的用途是篩出流失研究樣本,通過樣本資料來得出流失預警模型,通過使用者還活躍時的行為變化來**他們流失的概率,進而提供給使用者運營來做下一步工作的決策。

市場推廣反作弊

反作弊與作弊是乙個工作對,基本上是處在道高一尺魔高一丈不斷相互學習相互克制的狀態中。所以隨著作弊方法的不斷更新,反作弊和識別虛假使用者的方法也累計了很多種。大部分的方法都是基於人工或機器學習經驗建立起的判別模型。這些方法判別效率高,實施成本低,使用廣泛,但也有致命缺點。因為這些方法都屬於有監督的方式,形成的經驗來自歷史資料,如果渠道作弊方法不變,這些反作弊識別手段就會保持較高的有效性。但問題是當你識別渠道作弊並且拒絕為其付費時,渠道立刻就知道你存在針對當前作弊方法的識別手段,他們就會進行作弊公升級。同時他們還會要求你拿出他們作弊的證據,如果你告之了他們,就意味著你透露了識別方法,他們就能更容易的繞過你原有的反作弊方法,實現魔高一丈。最後你必須要想出無監督的方法來實現反作弊。

此外,銷售、人力、戰略決策等等都會是資料應用的舞台。

從上面對資料工作的介紹中不知你是否體會到了資料工作「從業務中來,回業務中去」的本質或者說根本存在價值。如果你不是乙個僅滿足於完成資料內部技術處理工作的從業者,那你必須要對這個本質有清晰的認識。

「網際網路 」從業務本質重構業務形態

本文講的是 網際網路 從業務本質重構業務形態,近日,2015中國it服務年會在京 以下簡稱年會 召開。年會現場來自中國資訊化推進聯盟秘書長劉獻軍指出,網際網路 從業務本質重構業務形態。當前全球新一輪科技革命與產業革命浪潮席捲下,移動網際網路 雲計算 大資料 下一代通訊技術 物聯網等新一代資訊科技應用...

業務和技術的本質思考

現在it技術,基本都是需要和業務打交道,但是你真正理解業務 技術的本質嗎?怎麼利用各自的優勢?業務,是指某種有目的的工作或工作專案 技術,是指人類對機器 硬體或人造器皿的運用,也包含更廣的架構,如系統 組織方法學和技巧 維基百科 業務具有強目的性,是為特定問題而生的 而技術具有弱目的性 普遍性和通用...

從業務流程角度理解面向服務的概念

從業務流程角度理解面向服務的概念 2005 08 30 15 29 計世網 soa,目前在it領域的熱門主題 面向服務的架構 service oriented architectures。soa的概念來自於web服務,由於web服務概念的出現及相關應用系統的實施,soa架構成為新的web服務模式。從...