我有大量的數據在世界各地的4個或5個站點上保持同步,每個站點大約有半個TB。這種變化(增加或改變)大約每天1.4千兆字節,並且數據可能在四個站點中的任何一個上發生變化。什麼是全球同步大量數據的最佳方式?
很大一部分(30%)的數據是重複的包(可能是打包的JDK),所以解決方案必須包含一種方法來獲取這樣的事實:在本地機器上存在這樣的事情並抓住他們,而不是從另一個網站下載。
版本控制不是問題,這不是一個代碼本身。
我只是有興趣,如果有任何解決方案(最好是開源),接近這樣的事情?
我的寶貝腳本使用rsync不會削減芥末了,我想做更復雜的智能同步。
感謝
編輯:這應該是基於UNIX :)
這*幾乎*正確,我特別喜歡鏈接到網站。有了Unison,它不會先看解決方案的本地文件系統,比如在父目錄或姐妹目錄(我甚至想定義這個目錄)。如果大小,名稱,模式時間和校驗和是相同的,那麼就抓住它... – Spedge 2008-10-24 16:09:34
爲什麼不使用鏈接代替這些鏈接,而是複製這些JDK和什麼?擔心複製那些肯定不需要重複的東西似乎不太合適。 Unison將會同步鏈接......這樣就可以工作,並且減輕一些空間需求和一些令人頭痛的問題 – 2008-10-24 17:40:37