自動洞察 大資料的下乙個重大轉折

2021-09-23 05:41:44 字數 3890 閱讀 2790

為了跟隨大資料的發展以及提高我們對資訊的使用,我們需要具有洞察力的應用,可以在連線洞察與操作的時候快速且低廉地提取相關性。

我堅持認為具有洞察力的應用是幫助企業高效**大資料的關鍵,可以提高決策效率和解決重大問題。為了更好的理解和重視我們開發該應用的重要性,有兩件事是很重要的,一是了解大資料大體上發生了什麼,二是評估我們使用商業智慧型系統的經驗如何促進我們思考這個應用。

因為我認為具有洞察力的應用是大資料的下乙個變化(可以看看最近ibm沃森平台使用的一些應用),我會發表系列部落格進一步**這個問題。在第一篇博 客裡,我將通過我的觀察展示25年來資料分析是怎樣發展的,特別是到了大資料階段,發展具有洞察力的應用是必須的。第二篇,我會更加詳細的描述這些應用, 並給出早期的一些例子。第三篇和最後一篇,我會討論投資者對這些應用的興趣,還有講下我最近對相關創新企業的投資。在這些文章中,我作為兩家分析應用創新 企業的創辦人,我將提到我如何將過去30年的工作經驗和15年風險投資經驗運用到這些企業中。

資料分析25年來的發展

資料量在過去25年一直在增長,用於決策的資料完整性促進了兩個步驟的行程,即建立資料倉儲和了解資料倉儲的容量。

資料倉儲及其他特殊變形–企業資料倉儲,資料集市等等-,是精選資料的基礎。

資料可能來自單獨的資料來源(如:乙個crm應用的資料庫)或者由許多資料來源整合而來(如:乙個crm應用的資料庫整合,資料庫內含有crm資料庫裡的每位客戶的社交**互動)。

資料可能是結構化的(如:描述客戶支付金額的資料),也可能是非結構化的(如:自由文字裡客戶與工作人員的互動備註),也可能是半結構化的(如:網 絡路由器生成的日誌檔案資料)。**捉到的精選資料都是已經自動被清洗乾淨,被標籤和分析好了的,減少了人們的人工思考的時間。

這些年,隨著開源軟體,雲計算和商用伺服器硬體的使用,我們減少了資料倉儲的費用,也提高了我們管理更多不同高速產生的資料的能力。我們的收支狀態 已經發生改變,從為資料倉儲花費幾千萬美元,轉變為最大的公司並開始盈利,如金融服務組織花旗銀行citibank和大型零售商沃爾瑪walmart,從 倉庫到中小型企業皆可支付的狀態。最近,低成本服務提供商,如亞馬遜 redshift, 谷歌 bigquery以及微軟auzre,已經將資料倉儲轉移到雲。最終,資料倉儲能被大眾公司接受。

隨著資料倉管的增加,資料報告的發表形式從列印到數位化。

資料完整性的第二步包括通過資料分析,理解資料倉儲的內容。在商業環境中,通常是通過報告和相關聯的視覺化實現資料的完整性,有時也使用更多定製的 視覺化和機器學習演算法,比如人造神經網路。(機器學習不是新的內容,但是大家認為,它從資料倉儲出現就一直被使用,作為資料儲存和管理的工具。)

隨著資料倉儲被不同行業的大量企業採用,我們看到了報告形式的轉變,它是可以被創造的,**可以提供分析學者和決策者報告,或者員工自己準備這些報 告。早期(80年代晚期,90年代初期),商業智慧型報告是由指定的it職員負責的,在報告中對資料倉儲的必要查詢是有相關標準和主題的。這些報告通過電腦 用紙儲存(如:報告可以被修改,但是只能由那位負責該報告的職員完成)和展示。後來,報告仍然可以儲存,同時這些報告可通過指定的報告專案展示在pc上, 再後來,web瀏覽器可執行在不同的裝置上,包括智慧型手機和平板,所以報告也能在這些裝置上展示。這些年來,建立查詢和撰寫報告的任務已經從it員工轉移 到企業使用者。但是,當這些查詢和相關報告可以更快的生成,更加靈活和廣泛的使用時,這些報告的主要使用者-企業分析師-他們仍然在不斷的,嘗試在報告中得 出資訊的最簡單的模式。更重要是,這些使用者在嘗試基於這些資訊採取相應的操作(圖1)。

圖1:複雜的資料模型和視覺化的一些例子,授權自evangelos simoudis

隨著更多的資料生成,我們已經可以更好更有效的管理它的費用,但是要想對資料進項有效分析,仍然不是件容易的事。

受網路全球廣泛使用,以及網路支付的連線,還有如物聯網等新領域得出大量我們從未見過的資料的驅使,發現我們的周圍充斥著資料。快資料和慢資料,簡單資料和複雜資料,以及全部一起出現的前所未有的海量資料。資料量可以有多大?

圖表2:展示了生成非結構化資料從2023年到預計2023年的增長情況,圖表授權來自網際網路資料中心idc,圖表未經許可,不可使用。

在過去10年,資料變得更大,同時企業it戰略的核心實現了「事半功倍」。企業現在面臨著資料倉儲系統的兩個難題。第一,有些系統不能有效管理捕捉到的大資料,導致不能有效使用那些應用。第二,費用高的離譜,對於系統而言可能會成為資料管理的挑戰。

關於這些問題,出現了部分解決方案,是由科技巨頭公司(如谷歌,雅虎等)開發的資料管理軟體,去得到新的資料生成,如hadoop。一開始,這個軟 件是執行在商用伺服器硬體,它是快速開源的,因此可以幫助一些企業用低廉的成本解決一些大資料的問題。比如像cloudera, hortonworks和一些其他提供開源軟體服務的公司已經成為大資料非結構化領域的主要成員。我之所以說只是出現了部分解決方案,是因為,在管理資料 的時候,一些系統不具備解決複雜性問題的功能,專屬的資料倉儲管理系統只有一些企業擁有。這些新的系統擅長建立資料湖,通過低成本選擇的方式替代和擴充套件數 據倉庫,它是適應大資料環境的設施。

雖然我們提高了有效管理資料費用的能力,但是我們分析資料的能力和費用沒有改善。

雖然大眾**都宣布來自資料的洞察力將是「新石油」(「**」),但是市場研究公司網際網路資料中心idc則**到了2023年,只有一小部分資料可以被收集和分析。我們需要分析更多捕捉到的資料和提取其中包含的資訊。

我們在努力提高分析資料的能力,但是面臨資料專業人員的短缺。

為了收集和分析更多的資料,包括報告裡面的資料,我們開始通過機器學習和其他基於ai的資料分析技術,來廣泛地使用自動資訊提取方法。但是這些方法 只能由資料科學家使用,這是一種新的職業。雖然我們看到一大批資料科學家的湧現,但是我們需要更多。目前無法做到培養出滿足需求數量的資料科學家,以及提 供我們生成足夠的資料。mckinsey預計到了2023年,美國將將面臨人才短缺,大概缺14到19萬名掌握深入分析技巧,能夠從收集的資料裡提取洞察 的專業人才。

我們也面領著人才短缺,缺少大概15萬名經理人,他們掌握著必要的定量技能,能基於資料科學家的大資料分析結果做出重要的商業決策。

機器學習提公升了我們找到資料相關性的能力,恰好節省了決策時間,增加了資料效率。

商業智慧型作為乙個領域已經發展了40年。統計分析和機器學習科技則使用了更久。這段時期,我們已經提高了確認資料集相關性的能力,這恰好減少了用在 決策上的時間和增加了資料的效率。比如,公司的財務官需要乙個月才能做出財務**,然而乙個自動線上廣告平台只需要10毫秒就能決定將他們的數字廣告投放 給哪一位客戶(圖3)。還有,當財務官在根據幾兆資料做出決策時,線上廣告系統已經在利用tb級資料在工作,大部分資料是實時生成的。

圖3:圖表顯示不同行業做出決策的平均時間。圖表授權來自evangelos simoudis.

在某些應用領域,簡單的確認資料集之間的關聯性就足以做出決策。這其中又有一些領域可以實現高回報,這通常會讓他們決定是否需要資料科學家或者其他 特定專業人才,從現有資料中提取資訊。計算機安全威脅檢測和信用卡盜刷偵測領域就是其中兩個。在這些領域裡,作出決策的時間非常短,「錯誤」決策的成本 (通常是保密的),但是至少一開始不是很高。而減少處理環節就跟安全侵入一樣是詐騙行為(如:信用卡持卡人遇到了麻煩,那麼系統管理者就應該要進行網路取 證)。但是,在乙個已經建立好的行為模式裡發現異常現象失敗,造成的成本可能更高。

為了跟隨大資料的發展以及提高我們對資料的使用,我們需要能夠快速且廉價的提取相關性的應用,將洞察與操作聯絡起來。

預計將短缺大量掌握定量技能的資料科學家和商業使用者,我們渴望能繼續**大量已經收集和管理起來的資料,我們會開發更好的分析應用,能生成洞察力和聯絡操作。這些應用,我稱它們為具有洞察力的應用,遠不止從資料裡提取相關性那麼簡單。

作者簡介: evangelos simoudis是富有經驗的風險投資專家以及全球企業的高階顧問。他的投資事業開始於15年前,先後在安佰深集團和trident capital。如今,evangelos主要是投資初期和成長期階段的企業,這些企業主要是來自資料和分析領域,提供軟體即服務的應用(saas應 用),具有流動性。他是企業創新,大資料,雲計算以及數字市場平台公認的思想領導者,他也是這些方面的積極發言人和貢獻者。

原文發布時間為:2023年3月7日

大資料即服務(BDaaS) 大資料行業的下乙個熱門

我們有軟體即服務 saas 平台即服務 paas 和資料即服務 daas 現在把它們全部揉雜在一起,再將所涉及的資料量大幅增加,就有了大資料即服務 bdaas 也許這個術語不怎麼為人所知,但卻非常恰當地描述了乙個快速成長的新市場。在過去幾年中,很多企業紛紛開始提供基於雲的大資料服務,以幫助其它公司和...

大資料即服務(BDaaS) 大資料行業的下乙個熱門

我們有軟體即服務 saas 平台即服務 paas 和資料即服務 daas 現在把它們全部揉雜在一起,再將所涉及的資料量大幅增加,就有了大資料即服務 bdaas 也許這個術語不怎麼為人所知,但卻非常恰當地描述了乙個快速成長的新市場。在過去幾年中,很多企業紛紛開始提供基於雲的大資料服務,以幫助其它公司和...

阿里的下乙個15年 大資料是核心

阿里巴巴的上市讓馬雲成功登上中國財富狀元,但他卻稱 連自己小區的首富都不想當 馬雲表示,阿里上市後服務中小企業的初衷不會改變,會和千千萬萬個 小人物 共同成長。經歷過上市喜悅的馬雲已經在思考阿里的下乙個15年,追求健康和快樂成為圍繞這個生態的下乙個目標,而這些夢想的實現離不開未來最核心的東西 資料。...