雲計算與大資料概論第七周

2021-10-25 05:50:31 字數 4061 閱讀 5993

大資料分析是指對規模巨大的資料進行分析。大資料可以概括為5個v, 資料量大(volume)、速度快(velocity)、型別多(variety)、價值(value)、真實性(veracity) 。

大資料作為時下最火熱的it行業的詞彙,隨之而來的資料倉儲、資料安全、資料分析、資料探勘等等圍繞大資料的商業價值的利用逐漸成為行業人士爭相追捧的利潤焦點。隨著大資料時代的來臨,大資料分析也應運而生。

中文名 大資料分析 外文名 big data analysis 含義是指對規模巨大的資料進行分析。

目錄1 工具介紹

▪ 前端展現

▪ 資料倉儲

▪ 資料集市

2 分析步驟

3 發展狀況

4 應用例項

5 業務成果

6 非同步分析

7 區別

工具介紹編輯

前端展現

用於展現分析的前端開源工具有jaspersoft,pentaho, spagobi, openi, birt等等。

用於展現分析商用分析工具有style intelligence、rapidminer radoop、cognos, bo, microsoft power bi, oracle,microstrategy,qlikview、 tableau 。

國內的有bdp,國雲資料(大資料魔鏡),思邁特,finebi等等。

資料倉儲

有teradata asterdata, emc greenplum, hp vertica 等等。

資料集市

有qlikview、 tableau 、style intelligence等等。

分析步驟編輯

大資料分析的六個基本方面

analytic visualizations(視覺化分析)

不管是對資料分析專家還是普通使用者,資料視覺化是資料分析工具最基本的要求。視覺化可以直觀的展示資料,讓資料自己說話,讓觀眾聽到結果。

data mining algorithms(資料探勘演算法)

視覺化是給人看的,資料探勘就是給機器看的。集群、分割、孤立點分析還有其他的演算法讓我們深入資料內部,挖掘價值。這些演算法不僅要處理大資料的量,也要處理大資料的速度。

predictive analytic capabilities(**性分析能力)

資料探勘可以讓分析員更好的理解資料,而**性分析可以讓分析員根據視覺化分析和資料探勘的結果做出一些**性的判斷。

semantic engines(語義引擎)

我們知道由於非結構化資料的多樣性帶來了資料分析的新的挑戰,我們需要一系列的工具去解析,提取,分析資料。語義引擎需要被設計成能夠從「文件」中智慧型提取資訊。

data quality and master data management(資料質量和資料管理)

資料質量和資料管理是一些管理方面的最佳實踐。通過標準化的流程和工具對資料進行處理可以保證乙個預先定義好的高質量的分析結果。

假如大資料真的是下乙個重要的技術革新的話,我們最好把精力關注在大資料能給我們帶來的好處,而不僅僅是挑戰。

6.資料儲存,資料倉儲

資料倉儲是為了便於多維分析和多角度展示資料按特定模式進行儲存所建立起來的關係型資料庫。在商業智慧型系統的設計中,資料倉儲的構建是關鍵,是商業智慧型系統的基礎,承擔對業務系統資料整合的任務,為商業智慧型系統提供資料抽取、轉換和載入(etl),並按主題對資料進行查詢和訪問,為聯機資料分析和資料探勘提供資料平台。

發展狀況編輯

開源大資料

hadoop hdfs、hadoop mapreduce, hbase、hive 漸次誕生,早期hadoop生態圈逐步形成。

hypertable是另類。它存在於hadoop生態圈之外,但也曾經有一些使用者。

一體機資料倉儲

ibm puredata(netezza), oracleexadata, sap hana等等。

應用例項編輯

巴西世界盃關係

與往屆世界盃不同的是:資料分析成為巴西世界盃賽事外的精彩看點。伴隨賽場上球員的奮力角逐,大資料也在全力演繹世界盃背後的分析故事。一向以嚴謹著稱的德國隊引入專門處理大資料的足球解決方案,進行比賽資料分析,優化球隊配置,並通過分析對手資料找到比賽的「制敵」方式;谷歌、微軟、opta等通過大資料分析**賽果… 大資料,不僅成為賽場上的「第12人」,也在某種程度上充當了世界盃的"預言帝"。

大資料分析邂逅世界盃,是大資料時代的必然發生,而大資料分析也將在未來改變我們生活的方方面面。

業務成果編輯

1.積極主動&**需求: 企業機構面臨著越來越大的競爭壓力,它們不僅需要獲取客戶,還要了解客戶的需求,以便提公升客戶體驗,並發展長久的關係。客戶通過分享資料,降低資料使用的隱私級別,期望企業能夠了解他們,形成相應的互動,並在所有的接觸點提供無縫體驗。

為此,企業需要識別客戶的多個識別符號(例如手機、電子郵件和位址),並將其集成為乙個單獨的客戶id。由於客戶越來越多地使用多個渠道與企業互動,為此需要整合傳統資料來源和數字資料來源來理解客戶的行為。此外,企業也需要提供情境相關的實時體驗,這也是客戶的期望。

緩衝風險&減少欺詐: 安全和欺詐分析旨在保護所有物理、財務和知識資產免受內部和外部威脅的濫用。高效的資料和分析能力將確保最佳的欺詐預防水平,提公升整個企業機構的安全:威懾需要建立有效的機制,以便企業快速檢測並**欺詐活動,同時識別和跟蹤肇事者。

將統計、網路、路徑和大資料方**用於帶來警報的**性欺詐傾向模型,將確保在被實時威脅檢測流程觸發後能夠及時做出響應,並自動發出警報和做出相應的處理。資料管理以及高效和透明的欺詐事件報告機制將有助於改進欺詐風險管理流程。

此外,對整個企業的資料進行整合和關聯可以提供統一的跨不同業務線、產品和交易的欺詐檢視。多型別分析和資料基礎可以提供更準確的欺詐趨勢分析和**,並**未來的潛在操作方式,確定欺詐審計和調查中的漏洞。

3.提供相關產品: 產品是任何企業機構生存的基石,也通常是企業投入最大的領域。產品管理團隊的作用是辨識推動創新、新功能和服務戰略路線圖的發展趨勢。

通過對個人公布的想法和觀點的第三方資料來源進行有效整理,再進行相應分析,可以幫助企業在需求發生變化或開發新技術的時候保持競爭力,並能夠加快對市場需求的**,在需求產生之前提供相應產品。

個性化&服務: 公司在處理結構化資料方面仍然有些吃力,並需要快速應對通過數字技術進行客戶互動所帶來的不穩定性。要做出實時回應,並讓客戶感覺受到重視,只能通過先進的分析技術實現。大資料帶來了基於客戶個性進行互動的機會。這是通過理解客戶的態度,並考慮實時位置等因素,從而在多渠道的服務環境中帶來個性化關注實現的。

優化&改善客戶體驗 運營管理不善可能會導致無數重大的問題,這包括面臨損害客戶體驗,最終降低品牌忠誠度的重大風險。通過在流程設計和控制,以及在商品或服務生產中的業務運營優化中應用分析技術,可以提公升滿足客戶期望的有效性和效率,並實現卓越的運營。

通過部署先進的分析技術,可以提高現場運營活動的生產力和效率,並能夠根據業務和客戶需求優化組織人力安排。資料和分析的最佳化使用可以帶來端對端的檢視,並能夠對關鍵運營指標進行衡量,從而確保持續不斷的改進。

例如,對於許多企業來說,庫存是當前資產類別中最大的乙個專案——庫存過多或不足都會直接影響公司的直接成本和盈利能力。通過資料和分析,能夠以最低的成本確保不間斷的生產、銷售和/或客戶服務水平,從而改善庫存管理水平。資料和分析能夠提供目前和計畫中的庫存情況的資訊,以及有關庫存高度、組成和位置的資訊,並能夠幫助確定存庫戰略,並做出相應決策。客戶期待獲得相關的無縫體驗,並讓企業得知他們的活動。

非同步分析編輯

非同步處理的大資料分析中遵守了捕獲、儲存加分析的流程,過程中資料由感測器、網頁伺服器、銷售終端、移動裝置等獲取,之後再儲存到相應裝置上,之後再進行分析。由於這些型別的分析都是通過傳統的關係型資料庫管理系統(rdbms)進行的,資料形式都需要轉換或者轉型成為rdbms能夠使用的結構型別,例如行或者列的形式,並且需要和其它的資料相連續。

處理的過程被稱之為提取、轉移、載入或者稱為etl。首先將資料從源系統中提取處理,再將資料標準化處理且將資料發往相應的資料倉儲等待進一步分析。在傳統資料庫環境中,這種etl步驟相對直接,因為分析的物件往往是為人們熟知的金融報告、銷售或者市場報表、企業資源規劃等等。然而在大資料環境下,etl可能會變得相對複雜,因此轉型過程對於不同型別的資料來源之間處理方式是不同的。

當分析開始的時候,資料首先從資料倉儲中會被抽出來,被放進rdbms裡以產生需要的報告或者支撐相應的商業智慧型應用。在大資料分析的環節中,裸資料以及經轉換了的資料大都會被儲存下來,因為可能在後面還需要再次轉換。

雲計算與大資料概論(二)

七 雲計算產品3 ibm藍雲解決方案 ibm 是商業資料計算的龍頭和傳統超級計算機的絕對領導者。在雲計算方面,ibm是一家從硬體 軟體 和服務提供全方位的支援的廠家。ibm把雲計算視為一張重要的戰略,ibm已在全球範圍內建立了13個雲計算中心,擁有很多成功的案例,並且在中國幫助眾多客戶成功部署了雲計...

大資料與雲計算概論3

大資料與雲計算概論3 簡介 近年來,計算機硬體與軟體的效能比以往有了極大的發展與進步,計算機硬體的發展為人們提供了極其強大的計算能力和及其豐富的計算資源,如不加以有效利用將會造成資源浪費,同時,隨著隨著計算機軟體的發展,使用者使用計算機的場合越來越多,這又導致使用者對計算機的更需求與要求越來越多,網...

雲計算與大資料概論第一周

雲計算的概念 目前,對雲計算的定義有多種說法。對於大眾來說廣為接受的說法是美國國家標準與技術研究院 ntsi 定義 雲計算是一種按使用量付費的模式,這種模式提供可用的 便捷的 按需的網路訪問,進入可配置的計算資源共享池 資源包括網路,伺服器,儲存,應用軟體,服務 這些資源能夠被快速提供,只需要投入的...