浮點數比較的問題

首先看一段**(vc中，c++環境下)：

int a = 2; int b = 3; int c = 6; if(1.0 / a + 1.0 / 3 + 1.0 / c >= 1.0) cout << "yes" << endl; else cout << "no" << endl;

請問是輸出yes呢還是輸出no呢？

答案：在控制台中經過幾秒後輸出no。

問題來了，debug過程中，查詢「1.0 / a + 1.0 / 3 + 1.0 / c」的值的確為1.0000000000000。

那麼為什麼if判斷中返回0呢?

經分析其實是精度的問題，1.0/3=0.333333333333……，1.0/c=0.16666666666666…….。如果精確相加當然為1.可是不要忘了對於計算機這個只能處理有限的離散資料的數字計算機來說，顯然只能近似計算。

那麼有沒有什麼辦法處理浮點數相比較的問題呢?先學習一下，浮點數在計算機中的儲存吧。

float與double的範圍和精度

1. 範圍

float和double的範圍是由指數的位數來決定的。

float的指數字有8位，而double的指數字有11位，分布如下：

float：

1bit（符號位） 8bits（指數字） 23bits（尾數字）

double：

1bit（符號位） 11bits（指數字） 52bits（尾數字）

於是，float的指數範圍為-127~+128，而double的指數範圍為-1023~+1024，並且指數字是按補碼的形式來劃分的。

其中負指數決定了浮點數所能表達的絕對值最小的非零數；而正指數決定了浮點數所能表達的絕對值最大的數，也即決定了浮點數的取值範圍。

float的範圍為-2^128 ~ +2^128，也即-3.40e+38 ~ +3.40e+38；double的範圍為-2^1024 ~ +2^1024，也即-1.79e+308 ~ +1.79e+308。

2. 精度

float和double的精度是由尾數的位數來決定的。浮點數在記憶體中是按科學計數法來儲存的，其整數部分始終是乙個隱含著的「1」，由於它是不變的，故不能對精度造成影響。

float：2^23 = 8388608，一共七位，這意味著最多能有7位有效數字，但絕對能保證的為6位，也即float的精度為6~7位有效數字；

double：2^52 = 4503599627370496，一共16位，同理，double的精度為15~16位。

下面介紹如何解決浮點數的比較（以下內容來自網友，感覺很不錯）：

浮點數比較（一）

在數**算當中經常會涉及到判斷兩個數是否相等的情況

對於整數很好處理 a==b這樣的乙個語句就可以解決全部的問題

但是對於浮點數是不同的

首先，浮點數在計算機當中的二進位制表達方式就決定了大多數浮點數都是無法精確的表達的

現在的計算機大部分都是數字計算機，不是模擬機，數字機的離散化的資料表示方法自然無法精確表達大部分的資料量的。

其次計算機浮點數的精度在單精度float型別下，只有7位，在進行浮點運算的時候，這個精度往往會導致運算的結果和實際期望的結果之間有誤差

因為前兩個原因，我們很難用 a==b來判定兩個浮點數是否相同

很自然，我們可以想到 fabs(a-b) < epsilon 這樣的一種判別方法

但是這種判別方法穩妥嗎？

它也不穩妥。

首先， epsilon是乙個絕對的資料，也就是誤差分析當中說說的絕對誤差

使用乙個固定的數值，對於float型別可以表達的整個數域來說是不可以的

比如epsilon取值為0.0001，而a和b的數值大小也是0.0001附近的，那麼顯然不合適

另外對於a和b大小是10000這樣的資料的時候，它也不合適，因為10000和10001也可以認為是相等的呢

適合它的情況只是a或者b在1或者0附近的時候

既然絕對誤差不可以，那麼自然的我們就會想到了相對誤差

bool isequal(float a, float b, float relerror )

這樣寫還不完善，因為是拿固定的第乙個引數做比較的，那麼在呼叫

isequal(a, b, relerror ) 和 isequal(b, a, relerror ) 的時候，可能得到不同的結果

同時如果第乙個引數是0的話，就有可能是除0溢位

這個可以改造

把除數選取為a和b當中絕對數值較大的即可

bool isequal(float a, float b, relerror ) ;

使用相對誤差就很完善嗎？

也不是，在某些特殊情況下，相對誤差也不能代表全部

比如在判斷空間三點是否共線的時候，使用判斷點到另外兩個點形成的線段的距離的方法的時候

只用相對誤差是不夠的，應為線段距離可能很段，也可能很長，點到線段的距離，以及線段的長度做綜合比較的時候，需要相對誤差和絕對誤差結合的方式才可以

相對完整的比較演算法應該如下：

bool isequal(float a, float b, float abserror, float relerror )

這樣才相對完整。

浮點數比較（二）

上述方法僅僅是浮點數之間最初級的比較方法。

高階的方法看浮點數比較（二）這個文章 —— 如何把兩個浮點數之間的比較轉化成為兩個整數之間的比較。

我們先看正數的情況

根據ieee的記憶體結構，指數在高位，尾數在低位

浮點數大的對應的把其記憶體結構按照整數來理解進行比較的時候，情況也是成立的

因此在這裡如果把他們進行比較的話，作為整數運算效率會非常的高，比如

float f1 = 1.23;

float f2 = 1.24

f1 > f2 成立

(int&)f1 > (int&)f2 也是成立的

而且，仔細研究ieee的浮點結構，可以發現在《浮點數比較》當中提到的浮點數精度的問題——不是所有的浮點數都可以精確的表達

可以精確表達的浮點數實際上是有限的，就是那些ieee的各種情況的列舉了 2^32個。不能表達的佔據了大多數

ieee在32位的情況下，尾數是23位的（暗含了第乙個位數是1）

對於可以精確表達的浮點數來說，如果我們把這23位當作整數來理解，它加1，就意味著可以找到比當前對應浮點數大的最小的浮點數了

反之，我們把兩個浮點數，對應的整數做差值運算，得到的整數表明的是兩個浮點數之間有多少個實際可以表達的浮點數（對應的指數相同的情況下很好理解；指數不同的時候，也是同樣有效的）

這樣，對於兩個正的浮點數，他們的大小比較就可以用 (int&)f1 - (int&)f2 來進行比較了

差值的結果實際上就應該是相對誤差了

這個相對誤差，不等同於普遍意義上的相對誤差

它所表達的是，兩個浮點數之間可能還有多少個可以精確表達的浮點數

這樣通過指定這個閾值來控制兩個浮點數的比較就更有效了

對於兩個正的浮點數

bool isequal(float f1, float f2, int absdelta)

這裡用abs而不是fabs這在asm上面的運算差距也是很大的了

對於兩個負數進行比較的情況也是相同的

只不過負數記憶體對應的整數加1，相應的找到的是更小的負數而已

但是負數和整數之間現在還不能進行直接的比較，因為根據ieee的記憶體結構

正數和負數是不同的，對應的整數不能連續

正的最小的數就是0了，對應的整數也是0x00000000

負的最小的數就是－0，對應的整數則是0x 80000000

不用奇怪－0

在ieee的表達當中是有兩個0的，乙個是 +0 乙個是-0

有趣的是，按照 f1 == f2 的判斷 +0和-0是相等的

通過對比我們可以發現，

+0 和正的浮點數可以按照轉換成為整數的方式直接進行比較

-0 和負的浮點數可以按照轉換成為整數的方式直接進行比較

如果我們能夠把他們連線起來，整個整數方式的直接比較就完備了

對比一下負數的結構，可以找到乙個簡單的辦法了：

把負數記憶體對應的整數減去 -0 ，他們就連續了

而且更好的結果是，所有的負數經過這次減法後，對應的整數也都是負數了

這樣整個整數比較就變得連續了，而且在整個浮點數範圍內都是有效的了

最後的比較演算法就是：

// 函式: bool isequal(float f1, float f2, int absdelta)

// 功能：把比較兩個浮點數是否近似相同

// 輸入：f1, f2參與比較的兩個浮點數

// absdelta 兩個浮點數之間允許有多少個其他可以精確表達的浮點數存在，相當於相對誤差

// 輸出: true，兩個浮點數進行相等； false 兩個浮點數不等

// 注意：僅僅適合ieee 32位浮點數結構

bool isequal(float f1, float f2, int absdelta)

浮點數比較的問題

浮點數比較

浮點數比較

浮點數比較

相關推薦