如何判斷乙個數是否在40億個整數中?

2022-03-06 03:13:52 字數 2617 閱讀 9512

題目:我有40億個整數,再給乙個新的整數,我需要判斷新的整數是否在40億個整數中,你會怎麼做?

【請教大神】

小史回到學校,把面試的情況和計算機學院的呂老師說了一下。

小史忙拉著呂老師問,為什麼我說分8次載入資料,面試官會說太慢了呢?

呂老師:哈哈,從磁碟載入資料是磁碟io操作,是非常慢的,你每次都要載入這麼大的資料,還要8次,我估計你找乙個數的時間可以達到分鐘甚至小時級了。

小史:那如果是你,你會怎麼辦呢?

呂老師:其實面試官已經提示得比較明顯了,他說給你一批機器,就是暗示你可以用分布式演算法。你把資料分散在8臺機器上,然後來乙個新的資料,8臺機器一起找,最後再彙總結果就行了。

小史:這樣的話能快多少?

呂老師:這樣應該能達到秒級。小史,你可以自己分析分析。

小史:我想想……哦,這樣做的話,因為每台機器都可以一次性把資料讀入記憶體,在比較的時候不用來回載入資料了,所以可以節省載入資料的開銷!這真是個好辦法。

【更好方案】

呂老師:其實這並不是最好方法,我這還有一種毫秒級的方法,想不想知道啊?

小史:當然想啊,快教教我。

小史:哦,對哦,這樣我就申請40億個位就好了,新的數轉換成乙個位,然後判斷一下這個位是0還是1就行了。

呂老師:小史啊,考慮問題要考慮清楚啊,如果是40億個位,那麼這40億個位哪些是0,哪些是1呢?來了乙個新的數,怎麼判斷是否在40億個位之中?

小史:我想想,對啊,40億個位,40億個數,那麼每個位都是1,這。。。

呂老師:其實你可以想想,32位int的範圍,總共就是2的32次方,大概42億多點。所以你可以申請2的32次方個位。

小史:意思是我把整個整數範圍都覆蓋了,哦,對哦。這樣一來,就可以做了,1代表第乙個位,2代表第二個位,2的32次方代表最後乙個位。40億個數中,存在的數就在相應的位置1,其他位就是0。

呂老師:沒錯,那來了乙個新的數呢?

小史:新的數就去找相應的位,比如來了乙個1234,就找一下第1234位,如果是1就存在,是0就不存在啦。

呂老師:沒錯,那麼這樣的話,需要多大記憶體呢?

小史:我想想啊,2的32次方個位,相當於2的29次方個位元組,哇,才500mb,真是節省了不少記憶體呢。

小史:這麼厲害的演算法,你是怎麼想到的?

呂老師:其實這是一種非常有名的大資料演算法,叫位圖法,英文名叫bitmap。顧名思義,就是用位來表示狀態,從而節省空間。明天正好我有一節課,就講位圖法,你可以來聽一聽。

【呂老師的課】

第二天,呂老師開始上課,他一開始就丟擲了小史遇到的面試題。

呂老師:同學們,這道題是bat公司的一道面試題,大家有什麼思路嗎?

話音剛落,蛋哥就站起來回答。蛋哥是呂老師最得意的門生,以思維活躍著稱。

蛋哥:我覺得可以這樣。首先,32位int的範圍是42億,40億整數中肯定有一些是連續的,我們可以先對資料進行乙個外部排序,然後用乙個初始的數和乙個長度構成乙個資料結構,來表示一段連續的數,舉個例子。

如果資料是1 2 3 4 6 7……這種的,那麼可以用(1,4)和(6,2)來表示,這樣一來,連續的數都變成了2個數表示。

來了乙個新數之後,就用二分法進行查詢了。

這樣一來,最差情況就是2億多的斷點,也就是2億多的結構體,每個結構體8個位元組,大概16億位元組,1.6gb,在記憶體中可以放下。

呂老師:嗯,非常好,不僅給出了方案,還能主動分析空間和可行性。

小史聽完後深感佩服,問題的解決方法絕對不止一種,只要肯動腦筋,即使沒有學過bitmap演算法,也能有別的方法來解決問題。

【課後】

下課後,小史又找到呂老師。

呂老師:但是你的理解能力還是很強的,很多東西一聽就懂,這可不是誰都能做到的。

判斷乙個數是否在40億個整數中

給40億個不重複的 unsigned int 的整數,然後再給乙個數,如何快速判斷這個數是否在那40億個數當中?40億個int型的整數,大約需要16g,很顯然記憶體放不下,可以考慮一下位圖法,用乙個bit為來表示乙個數是否存在,0表示不存在,1表示存在,40億個位元組型的資料大約需要4g,乙個位元組...

面試現場 如何判斷乙個數是否在40億個整數中?

如果直接迴圈遍歷的話有兩個問題,一是時間太久,二是如果直接用整數表示40億個整數的話,按照乙個整數4個位元組的話需要大概16g的記憶體。所以原文中有個思路 申請40億個位就好,新的數轉換成乙個位,比如如果是5那麼第5位 從0開始 就是1,如下 000000000000000.00100000,40億...

《筆試》《面試》判斷乙個數是否在40億個中

40億個不重複無符號整數,沒排序,任意給乙個無符號整數如何快速判斷這個數是否在這40億個數中。思路 點陣圖bitmap 在stl中叫bit set 節省空間 缺點只判定存在還是不存在,不能知道出現幾次。void set size t x x對應位置1 a index 1 cout void rese...