large-data-volumes

0熱度

1回答

假設，在我的應用程序中，我要求用戶輸入一些字符串。用戶可以多次輸入字符串。無論何時用戶輸入字符串，我都會將其與日期一起記錄在數據庫中。即使由不同的用戶輸入，許多字符串也可以是相同的。在主頁中，我需要提供界面，以便任何用戶在任何時間段（例如最後45天，或者2012年1月10日至2012年1月30日）之間查詢前n個（比如50個）字符串。如果是SQL，我可以寫如下查詢： select string, c

0熱度

1回答

慢選擇COUNT（*），information_schema，基數字段

我有一個很大的（超過60多萬條記錄）表。此表有一個主鍵（id，AUTO_INCREMENT索引ID）我從這個表中選擇記錄的報告。要瀏覽並瀏覽此報告（用PHP編寫），我正在使用分頁腳本。此腳本使用SELECT COUNT（）獲取此表中的記錄總數。 SELECT COUNT（）非常緩慢。問題：我可以查詢統計表基數場，INFORMATION_SCHEMA DB在表格名= my_large_ta

0熱度

1回答

從openJPA查詢創建155000個實體

我有一個查詢，在最壞的情況下會創建超過150K的實體。可能有30萬個實體的上限。我已經嘗試了幾種方法將這組數據返回給用戶......我使用sql Developer運行查詢，運行時間約爲.348秒。所以這不是任何形式的瓶頸。創建像這樣嵌套查詢... List<Object[]> ObjList = (List<Object[]>) emf.createNativeQuery(assembleNe

0熱度

1回答

使用OR和HAVING與使用和在MySQL

我工作的一個Coldfusion8/MySQL查詢中，我正在掃描數據庫AB對，例如： S=2, M=2, L=2, XL=2 我想改進原來處理這個腳本，這限制條目爲4對，因爲我想知道爲什麼它首先選擇所有記錄與一個匹配對，然後使用HAVING只選擇記錄，與全部對匹配。這裏是原來查詢，後來我的當前版本：  <cfparam name="s01" d

2熱度

1回答

在大型數據集上使用正則表達式時的空間和時間問題

我有一個很大（大於200K）的字符串數組，用於搜索文檔中的模式。在將其應用到文檔之前，我將數組中的每個條目轉換爲正則表達式。當我這樣做時，通過陣列並順序執行搜索所花費的時間將大大增加。我相信這對我在執行搜索之前依次應用於每個正則表達式的Pattern.compile語句是有用的。預編譯正則表達式可能是一種解決方法，但我注意到當我這樣做時，內存使用量急劇增加。在預編譯之前，Java應用程序在大小約爲

1熱度

1回答

大量交易數據信息模式生成

我想從大量交易數據中找出信息數據模式。通常，我的數據是具有定義良好的列的記錄集（例如發件人，收件人，金額，貨幣地址等 - 我有大約40-50個不同的列），數據量將是數百萬（可能是100萬）記錄和我的目標是從這樣產生信息交易模式 - 誰購買特定項目最多，交易量最高的交易接受者，費用模式，誰獲得更多來自同一個另一個發件人的交易等。此前我打算加載關係數據庫（Oracle/MySQL）中的數據並編寫復

0熱度

2回答

MySQL查詢變異上巨大的情況下：

我目前計算值，以填補15個長槍記錄的數據庫。第7工廠去只是鰭片，電子但是現在我的更新查詢開始給人的問題：現在&然後隨機字母變成一些jibberish。在java中我生成查詢這樣做的： String updateSql = "UPDATE VanNaar SET time = CASE ID "; for (int i = 0; i < routes.size(); i++) {

4熱度

1回答

如何以最有效的方式更新數據庫？

我正在建立一個價格比較網站，可以容納大約300,000個產品和幾百個客戶。在日常基礎上的站點需要價格和供應商的庫存情況的更新。當供應商需要更新我在想刪除所有的供應商信息，然後拉起並插入一個新的 - 每一次。這樣做，我不擔心供應商刪除產品。以一種簡單的方式，我每天都會得到一組新的數據。在另一方面，我需要保持在檢查自動增量計數器，它似乎是一種浪費，以從供應商刪除一切，如果他在他的整個倉庫只有更

4熱度

4回答

從大型表中獲取隨機結果

我試圖從包含約700萬條記錄的表中獲得4個隨機結果。此外，我還希望從同一個表中獲取4個按類別過濾的隨機記錄。現在，您可能會想像在一張桌子上隨機排序，這會導致查詢花費幾秒鐘，這並不理想。我認爲non-filtered結果集的另一種方法是讓PHP選擇一些在1-7,000,000左右的隨機數，然後用查詢做一個IN(...)只抓住這些行 - 是的，我知道這種方法有一個警告，因爲如果具有該ID的記錄不再

-2熱度

1回答

存儲和搜索4百多萬個文檔

我期望爲大型數據集實現存儲和搜索解決方案，該解決方案擁有超過400萬個文檔。每個文檔將有40個或更多的字段（或搜索標準）我以前曾與Lucene和Solr合作，所以我傾向於將它們用於此問題（當然歡迎任何其他想法和解決方案）。但是錯誤的是存儲效率和可擴展性。我一直在尋找Cassandra和MongoDB以及其他NoSQL解決方案，但無法確定哪種技術最適合這種需求。我想問一下，如果有人曾經遇到過類似