大資料思想

2021-10-21 03:30:06 字數 718 閱讀 9848

1)大根堆:

插入乙個元素:新元素被加入到heap的末尾,然後更新樹以恢復堆的次序。

取走堆頂元素:堆中每次都刪除第0個資料。為了便於重建堆,實際的操作是將最後乙個資料的值賦給根結點,然後再從根結點開始進行一次從上向下的調整。

2)小根堆

同上

如何在海量資料中找出重複最多乙個。

上億有重資料,統計最多前n個。

記憶體存得下

分1000次在記憶體處理小檔案,得到頻率最大ip(使用map統計)

對這1000個ip建立大根堆

1000w查詢串統計最熱門10個(同2)。

1g的檔案,裡面1行1個不超過16位元組的詞。記憶體限制1m,返回頻數最高前100(同2)。

使用map統計各個詞出現的頻率

對5000詞使用堆排序或歸併排序

分布在100臺電腦的海量資料,統計前十。

再將100臺計算機的top10組合起來堆排序

同一元素可同時出現在不同機器中

有10個1g檔案,每行都是乙個可重複使用者query,按query頻度排序。

a,b兩個檔案各存放50億url,每個為64byte,限制記憶體4g找出公共url。

1000w有重字串,對字串去重。

100w個數字找出最大100個。

快排法

在2.5億數字中找出不重複的整數。

如何在40億數字中快速判斷是否有某個數?

大資料解決思想

目前大資料,ai,機器學習這麼熱,那我們也要跟緊時代的腳步。記錄下大資料學習之旅。olap的基本多維分析操作有鑽取 roll up和drill down 切片 slice 和切塊 dice 以及旋轉 pivot drill across drill through等。olap有多種實現方法,根據儲存...

大資料平台 整體建設思想

建設指導方針 建設思路 缺點 通用元件建設,組合支援業務的方式 缺點 打通上下游系統和業務流程的能力 服務口碑取決於服務最差的環節 服務越多支援的代價越高1.乙個系統服務難免會有 bug,也總會有不夠靈活的地方 提供的服務越多 越全面,日常維護的代價就越高 需求響應要疾如閃電,功能服務要天長地久1....

大數的運算思想

大數計算的因數和結果精度一般是少則數十位,多則幾萬位。在c c 語言中定義的型別中精度最多只有二十多位,因而我們採取用鍊錶存貯的方式來存放大數。在計算中會用到從高位開始計算,和從低位開始計算數值的兩種情況。所以我們將鍊錶定義為雙向鍊錶,其中為乙個單元來存貯資料,乙個指標指向前方的資料,另乙個指向後的...