文檔差異算法如何工作？

差異的操作是基於解決最長公共子問題

在這個問題上，你有一個項目兩個序列：
a b c d f g h j q z 

    a b c d e f g i j k r x y z 
，你要查找的最長序列物品存在於機器人h原始序列以相同的的順序排列。也就是說，你想要找到一個新的序列，它可以從的第一個序列中刪除一些項目，並從第二個序列中刪除其他項目的。你也想這個序列只要是可能的。在這種情況下，它是
a b c d f g j z 
從最長公共子這只是一小步，得到 DIFF樣輸出：
e h i q k r x y 
    + - + - + + + + 

那說，這一切都正常工作與基於文本的文檔。由於Word文檔實際上是一種二進制格式，並且包含大量格式化信息和數據，因此這將變得更爲複雜。理想情況下，你可以看看自動運行Word本身，因爲它有能力的文檔之間「差異」，詳見這裏：

Microsoft Word Tip: How to compare two documents for differences

來源

2009-10-02 15:30:03 CraigTP

實現差異算法有兩個目的：只存儲版本之間的差異，或顯示版本之間的差異。這些是非常不同的（沒有雙關語意圖）。 LCS通常僅用於顯示差異，但爲了實現最佳存儲，需要更高級的算法。例如，如果您從文檔的一個部分剪下大部分，並將其粘貼到另一部分中，則優秀的存儲算法會檢測到該部分，而不會將其存儲爲「嘿，這裏出現了大量新數據」。 – 2009-10-02 15:32:52

@Lasse - 同意。由於最初的提問者在談論Word文檔，因此我認爲他們會更偏好差異化的「視覺」方面，而不是存儲方面。然而，對於存儲方面你是正確的，你會看到Delta Encoding/Compression（http://en.wikipedia.org/wiki/Delta_encoding）等。 – CraigTP 2009-10-02 16:37:41

文檔差異算法如何工作？

回答

相關問題