大資料(一)大資料的相關理論

2021-08-15 11:15:17 字數 1768 閱讀 3019

目前人人都在談大資料,但是,大資料是什麼,每個人都有自己的乙個看法。大資料這個概念,其實在上世紀九十年代就有人提出來了,當時希望通過將所有零散的資料歸併起來,然後進行資料探勘,以看到以前存在的問題,去**未來幾年的趨勢,來指導商業決策。比如保險行業,人壽保險會通過大資料的統計計算,根據人均壽命來計算保費與回報率。這是在特定的環境,特定的時間下,對資料做一些商業化的嘗試,還算不上真正的大資料。

想要系統認知大資料,必須要全面而細緻的分解它,如果你聽別人說大資料就是資料大,或者侃侃而談 4 個 v,也許很有深度的談到 bi 或**的價值,又或者拿 google 和 amazon 舉例,技術流可能會聊起 hadoop 和 cloud computing,不管對錯,只是無法勾勒對大資料的整體認識,不說是片面,但至少有些管窺蠡測、隔衣瘙癢了。下面從三個層面來展開認識:

大資料是什麼?投資者眼裡是金光閃閃的兩個字:資產。比如,facebook 上市時,評估機構評定的有效資產中大部分都是其社交**上的資料。如果把大資料比作一種產業,那麼這種產業實現盈利的關鍵,在於提高對資料的「加工能力」,通過「加工」實現資料的「增值」。

target 超市以 20 多種懷孕期間孕婦可能會購買的商品為基礎,將所有使用者的購買記錄作為資料**,通過構建模型分析購買者的行為相關性,能準確的推斷出孕婦的具體臨盆時間,這樣 target 的銷售部門就可以有針對的在每個懷孕顧客的不同階段寄送相應的產品優惠卷。

target 的例子是乙個很典型的案例,這樣印證了維克托·邁爾-捨恩伯格提過的乙個很有指導意義的觀點:通過找出乙個關聯物並監控它,就可以**未來。target 通過監測購買者購買商品的時間和品種來準確**顧客的孕期,這就是對資料的二次利用的典型案例。如果,我們通過採集駕駛員手機的 gps 資料,就可以分析出當前哪些道路正在堵車,並可以及時發布道路交通提醒;通過採集汽車的 gps 位置資料,就可以分析城市的哪些區域停車較多,這也代表該區域有著較為活躍的人群,這些分析資料適合賣給廣告投放商。

從大資料的價值鏈條來分析,存在三種模式:

先看看大資料在當下有怎樣的傑出表現:

其實,這些還遠遠不夠,未來大資料的身影應該無處不在。比如,amazon 的最終期望是:「最成功的書籍推薦應該只有一本書,就是使用者要買的下一本書。」google 也希望當使用者在搜尋時,最好的體驗是搜尋結果只包含使用者所需要的內容,而這並不需要使用者給予 google 太多的提示。

未來的大資料除了將更好的解決社會問題,商業營銷問題,科學技術問題,還有乙個可預見的趨勢是以人為本的大資料方針。人才是地球的主宰,大部分的資料都與人類有關,要通過大資料解決人的問題。

比如,建立個人的資料中心,將每個人的日常生活習慣,身體體徵,社會網路,知識能力,愛好性情,疾病嗜好,情緒波動……換言之就是記錄人從出生那一刻起的每一分每一秒,將除了思維外的一切都儲存下來,這些資料可以被充分的利用:

使用者隱私問題一直是大資料應用難以繞開的乙個問題。在大資料的背景下,很多人都在積極的抵制無底線的數位化,這種大資料和個體之間的博弈還會一直繼續下去……

當下,很多人依然沒有建立對於資訊隱私的保護意識,讓自己一直處於被滋擾,被精心設計,被利用,被監視的處境中。

一 大資料概述

1.列舉hadoop生態的各個元件及其功能 以及各個元件之間的相互關係,以圖呈現並加以文字描述。答 主要的核心元件有hdfs和mapreduce,其他還包括zookeeper hbase hive pig mahout sqoop flume ambari等功能元件 hdfs hdfs具有很好的容錯...

一 大資料概述

1.列舉hadoop生態的各個元件及其功能 以及各個元件之間的相互關係,以圖呈現並加以文字描述。hdfs 分布式儲存系統。yarn 資源排程。mapreduce 任務計算。hive 讓hadoop集群擁有關係型資料庫的sql體驗,本質是hadoop的乙個外掛程式,如果有統計,加減乘除等計算任務就會將...

大資料架構和模式(一)大資料分類和架構簡介

developerworks 摘要 大資料問題的分析和解決通常很複雜。大資料的量 速度和種類使得提取資訊和獲得業務洞察變得很困難。以下操作是乙個良好的開端 依據必須處理的資料的格式 要應用的分析型別 使用的處理技術,以及目標系統需要獲取 載入 處理 分析和儲存資料的資料來源,對大資料問題進行分類。大...