假設我們將一組MS Office文件從一個共享驅動器遷移到SharePoint(例如SharePoint Online)。僅限於Office 2007以上版本,因此文件擴展名如DOCX,XLSX。由於添加了元數據,SharePoint首次保存時會更改MS Office文件的大小。可以確認內容沒有改變?
我們發現,當文件保存到SharePoint時,文件的大小會發生變化 - 因爲添加了某些元數據。 (儘管非MS Office文件(如PDF或JPEG)的文件大小不會更改)。
這些MS Office文件是「容器」,其中放置了許多組件部分 - 通過將XLSX文件的擴展名(比如說)更改爲ZIP並使用WinZip打開它,可以粗略地查看這種情況。
出於良好的聲音完整性原因,我們希望確保「文件內容」組件部分沒有改變。
我們如何識別代表內容的容器內的組件部分? 這些組件在按照描述保存到SharePoint時是不變的嗎?
如果是這樣,是否有任何工具可以分析一對這樣的文件並確認內容是相同的,或者它是否已被更改?是否可能有一些校驗和,我們可以從這兩個文件中生成並進行比較。
如果沒有這樣的工具存在,哪種環境最適合創建它? - 可以在VB.NET和/或C#中完成嗎?
謝謝。
此前一篇文章涉及同一問題,但不提供我們需要的那種答案。 C# - Hash contents of MS Office documents without metadata