醫療健康大資料基礎知識

2021-07-23 18:37:48 字數 1167 閱讀 9525



1.大資料是指難以被傳統資料管理系統有效且經濟地儲存,管理,處理的複雜資料集。

大資料以

pb為單位,包含結構化,半結構化,無結構化資料,大資料給資料的採集,運輸,加密,儲存,分析和視覺化帶來了嚴峻的挑戰。

2.大資料五個特性:

volume

(資料規模巨大)

variety

(資料型別繁多)

velocity

(資料產生的速度快)

veracity

(分析結果取決於資料準確性)

value

(包含重要價值)

3.大資料處理方法:關聯規則學習(挖掘各個變數間的關係),

分類(通過訓練已有資料來識別新的資料),

聚類分析(按資料相似程度將整個資料集分為多個小規模資料集),

資料融合(將多個資料來源的資訊整合分析以產生新的更加精確,連續,有價值的資訊),

機器學習(一類演算法的總稱,關注設計演算法自動識別資料中的複雜模式),

自然語言處理(關注計算機與自然語言的聯絡,幫助計算機識別人類語言),

回歸(一組統計演算法,用來判別因變數與自變數的關係,以幫助**),訊號處理(一組用來識別,分析,處理訊號的技術),

**(模擬乙個複雜系統行為的技術,經常被用來**),

視覺化(將資料處理為影象,圖示,動畫,以幫助人類直觀了解資料)

4.大資料處理平台:

mapreduce

,其提供了一種分布式程式設計的抽象方法;

hadoop

,其包含了多個系統和工具以幫助完成大資料任務;

hdfs

,其用來可靠地分布式儲存資料;

hive

,其提供了

hadoop

上的sql

支援;hbase

,它是基於

hdfs

的一種非關係型資料庫;

zookeeper

,其提供了集群節點的乙個管理方法。

5.醫療健康大資料特點:多型性

指醫師對病人的描述具有主觀性而難以達到標準化

時效性指資料僅在一段時間內有用;

不完整性

指醫療分析對病人的狀態描述有偏差和缺失;

冗餘性指醫療資料存在大量重複或無關的資訊;

私隱性指使用者的醫療健康資料具有高度的私隱性,洩漏資訊會造成嚴重後果。

大資料基礎知識

一種規模大到在獲取 儲存 管理 分析方面大大超出了傳統資料庫 軟體工具能力範圍的資料集合,具有海量的資料規模 快速的資料流轉 多樣的資料型別和價值密度低四大特徵。大資料需要特殊的技術,以有效地處理大量的容忍經過時間內的資料。適用於大資料的技術,包括大規模並行處理 mpp 資料庫 資料探勘 分布式檔案...

大資料基礎知識(待續)

最近要參與大資料治理專案,但大資料相關知識是零,因此從頭開始了解學習。本人學習目的是用於測試,因此jindui 第二步了解mr,mapreduce,mr對hadoop來說是至關重要的,關於這個概念的理解,可以參考這位知友的回答當然慕課網上也有,可以花五分鐘看一下,基於此,基本對hadoop有基本了解...

大資料相關基礎知識

apache hadoop專案包括以下四個主要模組 1 hadoop common hadoop的通用工具集 2 hadoop distributed file system hdfs 分布式檔案系統 3 hadoop yarn 任務排程 集群資源管理框架 4 hadoop mapreduce 基於...