概率類的大資料問題

概率類的大資料問題，本質上是概率問題而不是大資料問題。這類問題中最常出現的則是如何在資料流中等概率的取出 m 個元素。這個問題有標準解法的，知道就知道，不知道一般也很難想到。記住就好。

問題描述：給你乙個 google 搜尋日誌記錄，存有上億挑搜尋記錄（query）。這些搜尋記錄包含不同的語言。隨機挑選出其中的 100 萬條中文搜尋記錄。假設判斷一條 query 是不是中文的工具已經寫好了。

假設你一共要挑選 n 個 queries，設定乙個 n 的 buffer，用於存放你選中的 queries。對於每一條飛馳而過的query，按照如下步驟執行你的演算法：

1.如果非中文，直接跳過

2.如果 buffer 不滿，將這條 query 直接加入 buffer 中

3.如果 buffer 滿了，假設當前一共出了過 m 條中文 queries，用乙個隨機函式，以 n / m 的概率來決定這條 query 是否能被選中留下。

為了簡化證明過程，我們用 5 條 queries 裡挑 3 條來作為例子證明每條 query 被挑中的概率都是 3/5。

問題描述

amazon: 乙個檔案中有很多行，不能全部放到記憶體中，如何等概率的隨機挑出其中的一行？[題目**]（

問題解答

先將第一行設為候選的被選中的那一行，然後一行一行的掃瞄檔案。假如現在是第 k 行，那麼第 k 行被選中踢掉現在的候選行成為新的候選行的概率為 1/k。用乙個隨機函式看一下是否命中這個概率即可。命中了，就替換掉現在的候選行然後繼續，沒有命中就繼續看下一行