將一個小範圍除以另一個小範圍時的浮點錯誤

當我有兩個（小）數字最小值和最大值並嘗試使用以下代碼獲取介於0和1之間的值時，是否可以得到小於0或更大的值比1？將一個小範圍除以另一個小範圍時的浮點錯誤

double min, max, min2, max2, mid, result; 
// min2 < max2 is a subrange of min < max with min2 >= min and max2 <= max 
// where max-min may be very small, which means max2-min2 will be very small as well. 
mid = (min2+max2)/2.0; 
result = (mid - min)/(max-min)

我有問題，我得到更大的值大於1時min, max是浮動而min2, max2是雙打。現在我讓他們都變數double，但我仍然不確定浮點錯誤是否會產生錯誤的結果。

後來我想通過使用

const int MAX=63; 
double array[64]; 
int index = (int)(result*MAX); 
array[index];

用結果來細分號碼範圍，並希望得到準確的指標甚至小的差異。

其中i混合雙打時得到了問題並浮舉個例子：

NUM_BINS = 64 
min = -5.00958252 
max = -5.00958014 
min2 = -5.0095801960014716 
max2 = -5.0095799398356107 
mid = (max2+min2)/2.0 
mid - min = 2.4516127083984429e-06 
(mid - min)/(max - min)) * (NUM_BINS - 1) = 64.781696632504463

來源

2017-07-26 allo

考慮到你沒有給出任何關於'min2'和'max2'相對於'min'和'min'的任何信息，你能給出一個數學的論證，爲什麼'result' *不應該*能夠超過'1'， max'？ – EOF

max2 <= max並且min2> = min意味着max2-min2 <= max-min。真正的問題是浮點算術，可能會發生奇怪的事情。 – allo

將此添加爲問題的顯式註釋。 – allo

假設IEEE754算術，如果最小和最大足夠接近，則差值是精確的。

平均用於計算中間點不一定是精確的（由2分割精確假設沒有下溢，但總和不），但以下表達式都是真：

min2 <= mid 
mid <= max2

mid-min將是精確（因此<= (max-min)），所以最後的不精確操作/將舍入到最接近的浮點值。由於確切值爲< = 1，因此沒有理由將其舍入大於1.

如果編譯器決定使用過量精度，上面的關係仍然成立。當你使用混合精度時會發生什麼，我不太清楚......如果你能展示精確值（十六進制格式），我會好奇的。

來源

2017-07-28 07:34:06

我在問題中添加了值（不是十六進制，它們就像我在調試時保存它們一樣）。 – allo

好的，但在你的示例max

是的，這個例子顯然是錯誤的。它混合浮動和雙重，這是造成這裏的問題。但我不確定使用相同的浮點類型是否真的解決了這個問題，或者是否可能再次發生某些（較小的）值。 – allo

將一個小範圍除以另一個小範圍時的浮點錯誤

回答

相關問題