究其大資料處理

2021-10-09 18:28:44 字數 1187 閱讀 9801

一、機器學習與資料探勘的區別

機器學習:是電腦科學和統計學的交叉學科,基本目標是學習乙個函式(對映),來做分類或回歸的工作

資料探勘:是指從資料庫大量的資料中挖掘潛在的、有價值的資訊並通過清洗分析,最終通過視覺化手段表達

機器學習和資料探勘最終的區別在於:

機器學習通過最小化/最大化損失函式的均值來優化引數。

資料探勘通過計算模式在每條資料中相應指標的均值來對其篩選。

二、大資料處理系統的分類並舉例說明各類處理系統的特點

大資料處理系統分為三類:科學計算系統、批處理系統和流處理系統

1、科學計算系統

科學計算系統是面向計算的高效能計算

(1)有限: 資料集中的資料必須是有限的

(2)集中:科學計算系統處理的資料集中儲存

2、批處理系統

批處理系統主要操作大量靜態的資料,並且要完成所有處理才能返回結果

(1)大量:批處理系統能大量處理資料並分析

(2)持久: 批處理系統處理的資料一般儲存在某個儲存器上

(3)有限: 資料集中的資料必須是有限的

3、流處理系統

流處理系統一般分為兩種:

1、逐項處理: 每次處理一條資料,是真正意義上的流處理。

2、微批處理: 這種處理方式把一小段時間內的資料當作乙個微批次,對這個微批次內的資料進行處理。

其中流處理系統的資料取其實時值,故其實時性要高於其他兩種,更流行於現場合的資料處理

三、大資料處理的基本流程

大資料處理流程主要包括資料收集、資料清洗、資料儲存、資料分析、資料視覺化、資料應用等環節。

1.資料收集

阿里雲天池

科賽2.資料清洗

資料清洗包括對資料的檢測、識別等,有利於提高大資料的一致性、準確性、真實性和可用性等。

3.資料儲存

實現對結構化、半結構和非結構化海量資料的儲存和管理。

4.資料分析

資料分析是大資料處理過程中最關鍵的環節,它決定了大資料的價值,選擇適合的分析方法能提高大資料分析結果的可用性、價值性和準確性質量

5.資料視覺化。

資料視覺化是將上一步資料分析得到的結果通過視覺化軟體如bi、tableau等,結合影象、**等方式展示資料業務中隱藏的資訊,並能直觀地使使用者理解其中的資訊,真正體現資料分析的價值。

大資料處理

大資料處理的流程主要包括以下四個環節 採集 匯入 預處理 統計 分析 挖掘,下面針對這四環節進行簡單闡述。大資料處理之一 採集 在大資料的採集過程中,其主要特點和挑戰是併發數高,因為同時有可能會有成千上萬的使用者來進行訪問和操作,比如火車票售票 和 它們併發的訪問量在峰值時達到上百萬,所以需要在採集...

大資料處理隨筆

1.mssql當資料庫資料超過1000萬的時候超時是正常的,所以當表資料到1000萬時候注意delete 2.今天遇到資料庫時間格式2014021000 當然是int型別哦 3.聯合索引使用 開始時間與結束時間這樣一起查詢的要建成索引 4.訂閱資料庫,只可以查詢操作,這樣的話可以在這個表上面建立索引...

大資料處理方案

假設目前有一千萬個記錄 這些查詢串的重複度比較高,雖然總數是1千萬,但如果除去重複後,不超過3百萬個。乙個查詢串的重複度越高,說明查詢它的使用者越多,也就是越熱門。請你統計最熱門的10個查詢串,要求使用的記憶體不能超過1g。2 32為40億多,所以給定乙個數可能在,也可能不在其中 這裡我們把40億個...