面試題 統計學 等概率採集樣本點

2021-08-19 01:58:47 字數 364 閱讀 8991

有乙個非常非常大的資料集,有正樣本,有負樣本,僅知道資料集的size,不知道資料的分布,設計演算法從中取樣出40000個正樣本、60000個負樣本,使得樣本是等概率被採集到的。

思路:這可以理解為乙個海量資料的問題,可以採用堆排序的方式來處理,而利用hash值來排序則可以獲得隨機性要求。

解法:維護乙個大小為40000的小根堆(或者大根堆)、乙個大小為60000的小根堆(或者大根堆)。遍歷一遍資料集,計算每乙個樣本id的hash值,如果該樣本是正樣本:如果hash值大於根節點或者堆中元素不足40000,則插入堆中並調整堆為小根堆(或者大根堆),否則捨棄該元素;如果是負樣本則作相應的操作。這一過程還可以使用分布式處理來提高時間效能。

面試題 等概率生成器

問題一 已知一隨機發生器,產生0的概率是p,產生1的概率是1 p,現在要你構造乙個發生器,使得它構造0和1的概率均為1 2 構造乙個發生器,使得它構造1 2 3的概率均為1 3 構造乙個發生器,使得它構造1 2 3 n的概率均為1 n,要求複雜度最低。解決方法 原始的隨機數生成器,生成0 的概率為p...

關於概率的面試題

當前面試中各大名企經常出現各種各樣的概率類面試題。究其原因,我覺得是概率型面試題可以綜合考查面試者的思維能力 應變能力 數學能力。在這裡對各種型別的概率型題目進行了收集和總結,希望在自我總結的同時對大家有所幫助。方法比較簡單,基本思想是每次隨機取乙個數,然後把它交換到最後的位置。然後對前 n 1 個...

統計學條件概率 貝葉斯公式

1.分類加法計數原理場景 從甲地到乙地,可以乘火車 汽車 輪船。火車有 4 班 汽車 2 班 輪船 3 班,那麼一天中乘坐這些交通工具從甲地到乙地有多少種不同的走法?2.分步乘法計數原理場景 從 a 到 b 的道路有 3 條,從 b 到 c 的道路有 2 條,那麼從 a 到 b 到 c 總共有多少種...