用grep等分析了一些千兆字節的日誌文件之後,我想知道如何通過使用數據庫記錄這些東西來使這更容易。什麼數據庫可以適用於這種垃圾? vanillia SQL數據庫當然適用,但它提供了許多您不需要的交易保證等,如果您使用千兆字節的數據和非常快的插入速率,這可能會讓它變慢。所以一個NoSQL數據庫可能是正確的答案(比較this answer的一些建議)。對數據庫中的一些要求是:你將使用什麼數據庫進行日誌記錄(即als日誌文件替換)
- 能力應付千兆字節或數據
- 快速插入
- 在每個條目多indizes應該是可能的(如時間,會話ID,URL等甚至TB級)
- 如果可能,它會以壓縮格式存儲數據,因爲日誌文件通常是極其重複的。
更新:已經有一些SO問題:Database suggestion for processing/reporting on large amount of log file type data和What are good NoSQL and non-relational database solutions for audit/logging database。但是,我很好奇哪些數據庫滿足哪些要求。