你想知道的大資料知識都在這裡

2021-08-20 04:03:57 字數 3052 閱讀 8465

毋庸置疑,現如今是屬於大資料(big data)的,革命性的時代。從社交**到企業,每時每刻都在產生大量的資料。無所作為,從而把這樣的寶藏白白浪費掉是及其愚蠢的。企業已經學會了收集大資料以獲取更高的利潤,並提供更好的服務以及更深入地了解其目標客戶。

大資料主要是指企業中日常生成的,大量的有組織以及無組織的資料。在這種情況下,組織如何處理這些資料,與資料量是無關的。對大資料分析可以產生改善戰略商務決策(strategic business decision-******)的洞察力。

如前所述,大資料的價值不在於您擁有多少資訊,而在於您要如何利用它。您可以從任何乙個點收集資料(並對其進行檢查),以找到下面四種情況的解決方案:

當您耗費大量精力分析聚合大資料時,下面這些業務關聯的任務就可能實現:

圖1 大資料基礎結構

大資料可以分為以下三大類。

結構化:可以以固定資料格式儲存、處理和改進的資料稱為結構化資料。隨著時間的推移,如今電腦科學已經能夠開發使用這些資料的方法,並從中獲得價值。不過近來我們正**與龐大數量的這類資料相關的問題,這些資料量將成為 zb(10 億 tb 等於 1zb)級別的。

非結構化半結構化:這可以包含兩種形式的資料。另外,我們可以將半結構化資料視為一種形式上的結構,但實際上資料本身並未定義。例如,xml 檔案中所描述的資料。

一些共同特徵如圖 2 所示。

體積(volume):資料量是決定大資料價值的重要因素。因此,體積是處理大資料時需要考慮的乙個屬性。

種類(variety):指的是各種資料來源以及資料的性質,這其中既有結構的,也有非結構化的。曾經,電子**和資料庫是大多數實際應用中唯一考慮的資料**。但現在,調查應用中還會考慮到電子郵件,,錄音,以及監控裝置等形式的資料。

速率(velocity):該術語是指 「資料是如何迅速生成的」。資料建立和提煉的速率要有多快,才能滿足特定需求,這決定了它的真正潛力。大資料的速率是資料從業務流程、應用程式日誌、**等**流出的速度。大資料流動的速度非常高,幾乎從不間斷。

精確性(veracity):這是指所生成資料的各種格式之間的不相容性,這限制了挖掘或管理資料的過程。

圖2 大資料的特徵

大資料架構包含一致的、可擴充套件的,以及完全計算機化的資料管道(data pipelines)。構建這種基礎架構需要具有深入了解堆中的每一層的能力,即從集群設計(cluster design)開始,直到設定負責處理資料的頂級鏈(top chain)。圖 3 展示了堆疊的複雜性以及資料管道工程如何觸及其每個部分。

在圖 3 中,資料管道收集原始資料並將其轉化為有價值的東西。同時,大資料工程師必須計畫好資料會發生什麼情況,資料儲存在集群中的方式,內部許可的訪問方式,用於處理資料的裝置,以及提供給外界訪問的模式。那些設計和實現這種架構的人被稱為大資料工程師。

眾所周知,大資料的主題非常廣泛,並且滲透到了許多新技術的發展中。以下對一些技術的概述旨在幫助使用者對大資料進行改造。

1. mapreduce(對映化簡):這使得任務的實現具有能夠跨越數千台伺服器的可擴充套件性。

2. hadoop:這是 mapreduce 最令人欽佩的執行方式,它是乙個完全開源的處理大資料的平台。hadoop 足夠靈活,它能夠處理多種資料來源,例如聚合資料以進行大規模處理,從資料庫讀取資料等。

3. hive:這是乙個類似 sql 的鏈結,允許 bi(商業智慧型) 應用程式在 hadoop 集群旁執行查詢。這是由 facebook 開發的,它已經被開源了一段時間,並且它還是 hadoop 框架的更高層次的概念。此外,它允許每個人對儲存在 hadoop 集群中的資料進行查詢,並改進了 hadoop 的功能,使其成為了 bi 使用者的理想選擇。

圖3 大資料體系結構

處理大資料的能力具有多種益處。

企業可以在進行決策時利用外腦(outside brainpower):使用來自搜尋引擎以及 facebook 和 twitter 等**的社交資料的權利,可以幫助企業改進商務戰略。

增強客戶服務:客戶響應系統正在被使用了大資料技術的新系統所取代。在這些新系統中,大資料技術用於理解與評估消費者的反應。

在早期識別服務風險:可以事先識別風險因素,以提供完美的資料。

提高操作能力:大資料技術可用於在決定將哪些資料移入資料倉儲之前,為新資料構建暫存區(staging areas)或著陸區(landing zones)。此外,這種大資料和資料倉儲技術的結合可幫助企業繞過不經常訪問的資料。

雖然很容易陷入各種關於大資料的炒作之中,但它未得到充分利用的原因之一就是,在使用到它的技術中仍有許多挑戰需要解決。其中一些挑戰如下:

公司面臨著的問題是:識別正確的資料,以及審查如何最好地利用它們。構建與資料有關的商業案例,這往往意味著形成 「開箱即用(out-of-the-box)」 的意見,以及尋找與傳統商業模式截然不同的收入模式。

公司不情願去挑選同時具有使用新技術和審查資料(以發掘重要的商業洞察)能力的優秀人才。

大量資料點還沒有進行鏈結,公司通常沒有合適的平台來整合和管理整個企業的資料。

資料世界的技術發展日新月異。借用資料之力,意味著能夠與良好的、具有開拓性的夥伴一起運營 —— 這些公司可以幫助建立正確的 it 設計,從而以良好的組織方式適應環境的變化。

大資料的可訪問性(accessibility),便宜的硬體產品,以及新的資訊管理和分析軟體聚合在一起,在資料分析的歷史中創造了獨特的時刻。我們現在有能力快速且經濟高效地審查這些驚人的資料集,這是有史以來的第一次。這種能力象徵著真正的飛躍,同時也象徵著乙個在工作效率、收入和成功方面大幅進步的機會。

問答pandas「group by」如何查詢hdfstore中的大資料?

大資料安全市場現狀和需求分析

nba+大資料,數字經濟重塑體育帝國!

大資料與網際網路醫療之發展**

各種線 你想知道的都在這裡

uart iic spi都是一種具有協議特徵的收發器 介面 匯流排,它規定資料按照什麼的時序傳輸,rs232,rs485是傳輸時候的電平標準,規定了按照上述協議傳輸的高電平與低電平的電壓都應該是多少 rs232與rs485一般都預設跑的uart協議。以uart協議 時序 通過uart收發器的收發端 ...

寒冬 裁員?!你想知道的真相都在這裡

熱點話題 最近一段時間的熱點話題一直都是寒冬來了。裁員了。那個公司又倒閉了。搞的大家都惶恐不安,但真相到底是什麼呢?那小弟就厚著臉皮來說說把,如有不妥的地方,你就當看個笑話了,博您一笑。本文沒有廢話,將以最簡潔的語言分別從關於寒冬 關於裁員 如何過冬幾個方面來分析。一則 笑話 記得網上流傳著這樣一段...

關於達夢認證,你想知道的都在這裡了

達夢認證是達夢憑藉多年資訊科技人才培養經驗及對行業發展的深刻理解,助力開拓相關技術人員職業發展生涯 滿足企業中日益增長的資料安全人才需求而推出的層次化認證體系。它分為達夢工程師認證和達夢講師認證。達夢認證是達夢憑藉多年資訊科技人才培養經驗及對行業發展的深刻理解,助力開拓相關技術人員職業發展生涯 滿足...