大資料的那些事兒

2021-09-23 01:33:47 字數 1437 閱讀 4471

資源列表:

分布式檔案系統

檔案資料模型

注意:業內存在一些術語混亂,有兩個不同的東西都叫做「列式資料庫」。這裡列出的有一些是圍繞「key-map」資料模型而建的分布式、持續型資料庫,其中所有的資料都有(可能綜合了)鍵,並與對映中的鍵-值對相關聯。在一些系統中,多個這樣的值對映可以與鍵相關聯,並且這些對映被稱為「列族」(具有對映值的鍵被稱為「列」)。

另一組也可稱為「列式資料庫」的技術因其儲存資料的方式而有別於前一組,它在磁碟上或在儲存器中——而不是以傳統方式,即所有既定鍵的鍵值都相鄰著、逐行儲存。這些系統也彼此相鄰來儲存所有列值,但是要得到給定列的所有值卻不需要以前那麼繁複的工作。

前一組在這裡被稱為「key map資料模型」,這兩者和key-value 

資料模型

之間的界限是相當模糊的。後者對資料模型有更多的儲存格式,可在列式資料庫

鍵-值資料模型

圖形資料模型

newsql資料庫

列式資料庫

注意:請在鍵-值資料模型

閱讀相關注釋。

時間序列資料庫

類sql處理

資料攝取

服務程式設計

排程

機器學習

基準測試

安全性

系統部署

應用程式

搜尋引擎與框架

mysql的分支和演化

postgresql的分支和演化

memcached的分支和演化

嵌入式資料庫

商業智慧型

資料視覺化

物聯網和感測器

文章推薦

**

2015 – 2016

2013 – 2014

2011 – 2012

2001 – 2010

本文**:

關於大資料的那些事兒(一)

大資料到底是什麼?它是為了解決海量資料的儲存和計算所出現的技術,包括結構化和非結構化資料 以及,儲存資料的成本。只會搭搭集群,寫寫map reduce不是我們的核心競爭力所在,即使現在靠這個能混口飯吃,但是能夠想象到,這種型別的人才是可以批量生產的!因為這並不算是什麼核心技術,只要你不傻,借助網上的...

關於大資料的那些事兒(一)

大資料到底是什麼?它是為了解決海量資料的儲存和計算所出現的技術,包括結構化和非結構化資料 以及,儲存資料的成本。只會搭搭集群,寫寫map reduce不是我們的核心競爭力所在,即使現在靠這個能混口飯吃,但是能夠想象到,這種型別的人才是可以批量生產的!因為這並不算是什麼核心技術,只要你不傻,借助網上的...

資料清洗的那些事兒

內容包括兩個部分 一 什麼是資料清洗 二 資料清洗的常見問題 1處理離群點 2改善資料 3資料調和 4標準化 檢測和去除資料集中的雜訊資料和無關資料,處理遺漏資料,去除空白資料域和知識背景下的白雜訊。通俗來講就是把髒資料清洗掉,提高資料質量。1.資料清洗常見問題之處理離群點 對離群點最簡單的解釋是 ...