2012-08-14 63 views
2

我正在研究顯示來自不同站點的rss源的項目。 我把它們保存在數據庫中,每3個小時我的程序就會讀取並插入到sql數據庫中。 我希望供應商不會顯示重複內容的唯一記錄。在sql數據庫中保持RSS源唯一的最佳做法

但問題是有些提供程序不給GUID字段,有些則給出了GUID字段而不是發佈日期。還有一些人甚至不給GUID或PubDate只是標題和鏈接。

因此,要保持RSS服務uniqe在SQL Server中最好的方式是什麼?

我應該檢查第一個GUID,然後pubbdate,然後鏈接,然後標題?比較SQL中的鏈接字段以檢查唯一性是否是一種很好的做法?

謝謝。

回答

1

我會開發一個例程,採用某些關鍵參數,如標題,源代碼和正文,然後將它們組合起來以創建一個CRC哈希。然後將哈希存儲爲提要的屬性,並在添加新提要之前檢查匹配的哈希。

我不確定你的環境約束是什麼,但這裏是計算C#中CRC-32的一個例子:http://damieng.com/blog/2006/08/08/calculating_crc32_in_c_and_net

相關問題