程式設計之美1 5 快速找出故障機器

2021-07-03 04:16:12 字數 3710 閱讀 5137

題目:

假設乙個機器只儲存乙個標號為

id的記錄,假設每份資料儲存

2個備份,這樣就有

2個機器儲存了相同的資料。其中id是小於10億的整數

問題1、

在某個時間,如果得到乙個資料檔案

id的列表。是否能夠快速的找到這個表中僅出現一次的

id?即快速找出出現故障的機器儲存的資料id。

問題2、

如果有兩台機器宕機呢?(假設同乙個資料的倆個備份不會同時丟失,即列表中缺少的是兩個不等的id)

擴充套件題、

如果所有的機子都有三個備份,也就是說同一

id的機子有三颱。而且同時又有三颱機子宕機,還能用上面的方法解決嗎?

如果有n

臺備份,又同時有

n臺機器宕機呢?

~~~~~~~~~~~~~~~~分割線~~~~~~~~~~~~~~~~~~~~~~

問題重新闡述:

問題1、已知乙個陣列,陣列中只有乙個資料是出現一遍的,其他資料都是出現兩遍,我們要把這個資料找出來

問題2、已知乙個陣列,陣列中有兩個不同的資料都出現一遍,其他資料都是出現兩遍,我們要把這兩個資料找出來

問題3、已知乙個陣列,陣列丟失了三個資料,我們要把這三個資料找出來

之後可以擴充套件到n個

~~~~~~~~~~~~~~~~~分割線~~~~~~~~~~~~~~~~~~~~~

問題1、已知乙個陣列,陣列中只有乙個資料是出現一遍的,其他資料都是出現兩遍,我們要把這個資料找出來

方法

一、使用計數排序(借助map)

思想:遍歷整個

id列表

,使用map

記錄每個id出現的次數。之後,只出現一次的id為所求

時間複雜度

o(n),

空間複雜度

o(n)

注:不用map,而用陣列的話,空間複雜度會大於n(n表示有n個數

),應該是10億(id的最大值可能為10億)

缺點:空間複雜度太大,對已經出現過兩次的id仍要儲存,但它已經不可能是出故障的機器了

方法

二、仍使用計數排序,但是對已經出現過兩次的id不在儲存

思想:遍歷列表,對於每乙個id,先檢查hash表中是否有與之相同的id

若有,則從hash表中刪除該id;

否則,將該id加入到hash表中。

這樣,遍歷完列表後,hash表中剩下的那乙個元素即為所求id。

時間複雜度

o(n),

空間複雜度最好為o(1),最壞為

o(n)

方法

三、利用異或運算(推薦使用)

思想:將列表中的所有id異或,之後得到的值即為所求id。

利用異或運算可以得到

x^x=0   x^y=z  x^0=x

[cpp]view plain

copy

x ⊕ x = 0   x ⊕ y = z  x ⊕ 0 = x  

比如說id為 2 1 2 3 1 要找的id為3  

2的二進位制為010,1的二進位制為001  

3的二進位制為011  

則2 ⊕1 = 010⊕001= 011   

011 ⊕2 = 011⊕010=001=1(2⊕1⊕2 = 1)  

1⊕3 = 001⊕011=010  

010⊕001=011 = 3  

最終的結果仍然是那個只出現一次的數  

時間複雜度為o(n),空間複雜度為o(1)。在時間和空間上,基本已經達到最優。

缺點:前提是只有乙個id出現一次,若出現多次,則不適合

方法

四、利用 "不變數" (推薦使用)

思路:這裡,所有id的和為乙個不變數,對現在剩下id求和。所有id的和與剩下id的和之差即為所求id。

時間複雜度:o(n)時間,空間複雜度o(1)

總結:使用異或 和 不變數 都已經很優化。均能在只遍歷一次列表,只需乙個變數的條件下解決。

~~~~~~~~~~~~~~~~~分割線~~~~~~~~~~~~~~~~~~~~~

問題2、已知乙個陣列,陣列中有兩個不同的資料都出現一遍,其他資料都是出現兩遍,我們要把這兩個資料找出來

題裡面是丟失的是兩個不同的資料,我們這裡兩種情況都考慮下

如果缺少的兩個數字不相同,

方法:進行異或操作

思路:由於缺少的數不同,則最後異或的結果不為0。

[cpp]view plain

copy

(1)對陣列中所有的id進行異或,結果為a  

(2)我們找到a的二進位制表示中,最低一位為1的位置b  

(3)根據b位是否為1,將id陣列中的數分為兩個陣列,其中乙個陣列中的b位為1,另乙個佇列中的b位為0。  

(注意,每個陣列中,除了那個只出現一次的數外,其他數都是出現兩次的,此時就可以在陣列內使用異或操作)  

(4)然後對兩個陣列,分別進行異或操作,則將得到兩個不為0的數字。即為所丟失的兩個id。  

如果缺少的兩個數字相同

(此時陣列中所有id都是成對出現,異或值還是為0,不能使用異或實現)

方法:可以使用不變數實現。丟失兩個,生成兩個方程,聯立求值

此時我們採取的方法如下:

[cpp]view plain

copy

(1)首先計算出初始未丟失之前,所有id之和。  

(2)然後計算出丟失之後的id之和,然後(1)(2)結果進行相減操作,得到方程x+ y = a。  

(3)利用丟失前後平方和之差,來與(2)進行聯立,得到方程x * x + y * y = b。  

(4)對兩方程進行聯立,即可以求出最終的結果。  

~~~~~~~~~~~~~~~~~分割線~~~~~~~~~~~~~~~~~~~~~

問題3、已知乙個陣列,陣列丟失了三個資料,我們要把這三個資料找出來

之後可以擴充套件到n個

方法一:我們需要建立三/n個方程,求出這些都是的數

此時,當方程為n時,要求n個方程可不好求

方法二:使用計數排序 + 計數值達到a時map不在儲存

這時,最終可以得到這幾個數

~~~~~~~~~~~~~~~~~分割線~~~~~~~~~~~~~~~~~~~~~

相關題目

給你一副雜亂的撲克牌(不包括大小王),任意從其中抽出一張牌,怎樣用最簡單的方法來知道抽出的是1~13中的那一張?(不要求知道花色)

方法:利用不變數

事先算好所有牌的和(1+...+13) x 4 = 364

然後分別減去留下的牌點數,最終得到的就是抽出的那一張

致敬原創:

程式設計之美 1 5 快速找出故障機器

解法3 使用異或 問題1 找出出現奇數次的兩個數 void findrepeatedtwonumbers int a,int n,int no1,int no2 temp的值現為兩個出現奇數次的數的異或 找第乙個為1的位 for j 0 j sizeof int 8 j 第j位為1,說明這兩個數字在...

程式設計之美 1 5 快速找出故障機器

題目 假設乙個機器只儲存乙個標號為id的記錄,假設每份資料儲存2個備份,這樣就有2個機器儲存了相同的資料。其中id是小於10億的整數 問題1 在某個時間,如果得到乙個資料檔案id的列表。是否能夠快速的找到這個表中僅出現一次的id?即快速找出出現故障的機器儲存的資料id。問題2 如果有兩台機器宕機呢?...

程式設計之美 1 5 快速找出故障機器

關心資料探勘和搜尋引擎的程式設計師都知道,我們需要很多的計算機來儲存和處理海量資料。然而,計算機難免出現硬體故障而導致網路聯絡失敗或宕機。為了保證搜尋引擎的服務質量,我們需要保證每份資料都有多個備份。簡單期間,我們假設乙個機器僅儲存乙個標號為id的記錄 假設id是小於10億的整數 假設每份資料儲存兩...