large-data-volumes

    0熱度

    1回答

    假設,在我的應用程序中,我要求用戶輸入一些字符串。用戶可以多次輸入字符串。無論何時用戶輸入字符串,我都會將其與日期一起記錄在數據庫中。即使由不同的用戶輸入,許多字符串也可以是相同的。在主頁中,我需要提供界面,以便任何用戶在任何時間段(例如最後45天,或者2012年1月10日至2012年1月30日)之間查詢前n個(比如50個)字符串。如果是SQL,我可以寫如下查詢: select string, c

    0熱度

    1回答

    我有一個很大的(超過60多萬條記錄)表。 此表有一個主鍵(id,AUTO_INCREMENT索引ID) 我從這個表中選擇記錄的報告。要瀏覽並瀏覽此報告(用PHP編寫),我正在使用分頁腳本。 此腳本使用SELECT COUNT()獲取此表中的記錄總數。 SELECT COUNT()非常緩慢。 問題: 我可以查詢統計表基數場,INFORMATION_SCHEMA DB在表格名= my_large_ta

    0熱度

    1回答

    我有一個查詢,在最壞的情況下會創建超過150K的實體。可能有30萬個實體的上限。我已經嘗試了幾種方法將這組數據返回給用戶......我使用sql Developer運行查詢,運行時間約爲.348秒。所以這不是任何形式的瓶頸。 創建像這樣嵌套查詢... List<Object[]> ObjList = (List<Object[]>) emf.createNativeQuery(assembleNe

    0熱度

    1回答

    我工作的一個Coldfusion8/MySQL查詢中,我正在掃描數據庫AB對,例如: S=2, M=2, L=2, XL=2 我想改進原來處理這個腳本,這限制條目爲4對,因爲我想知道爲什麼它首先選擇所有記錄與一個匹配對,然後使用HAVING只選擇記錄,與全部對匹配。 這裏是原來查詢,後來我的當前版本: <!--- placeholders ---> <cfparam name="s01" d

    2熱度

    1回答

    我有一個很大(大於200K)的字符串數組,用於搜索文檔中的模式。在將其應用到文檔之前,我將數組中的每個條目轉換爲正則表達式。當我這樣做時,通過陣列並順序執行搜索所花費的時間將大大增加。我相信這對我在執行搜索之前依次應用於每個正則表達式的Pattern.compile語句是有用的。預編譯正則表達式可能是一種解決方法,但我注意到當我這樣做時,內存使用量急劇增加。在預編譯之前,Java應用程序在大小約爲

    1熱度

    1回答

    我想從大量交易數據中找出信息數據模式。 通常,我的數據是具有定義良好的列的記錄集(例如發件人,收件人,金額,貨幣地址等 - 我有大約40-50個不同的列),數據量將是數百萬(可能是100萬)記錄和我的目標是從這樣產生信息交易模式 - 誰購買特定項目最多,交易量最高的交易接受者,費用模式,誰獲得更多來自同一個另一個發件人的交易等。 此前我打算加載關係數據庫(Oracle/MySQL)中的數據並編寫復

    0熱度

    2回答

    我目前計算值,以填補15個長槍記錄的數據庫。第7工廠去只是鰭片,電子但是現在我的更新查詢開始給人的問題: 現在&然後隨機字母變成一些jibberish。 在java中我生成查詢這樣做的: String updateSql = "UPDATE VanNaar SET time = CASE ID "; for (int i = 0; i < routes.size(); i++) {

    4熱度

    1回答

    我正在建立一個價格比較網站,可以容納大約300,000個產品和幾百個客戶。 在日常基礎上的站點需要價格和供應商的庫存情況的更新。 當供應商需要更新我在想刪除所有的供應商信息,然後拉起並插入一個新的 - 每一次。 這樣做,我不擔心供應商刪除產品。以一種簡單的方式,我每天都會得到一組新的數據。 在另一方面,我需要保持在檢查自動增量計數器,它似乎是一種浪費,以從供應商刪除一切,如果他在他的整個倉庫只有更

    4熱度

    4回答

    我試圖從包含約700萬條記錄的表中獲得4個隨機結果。此外,我還希望從同一個表中獲取4個按類別過濾的隨機記錄。 現在,您可能會想像在一張桌子上隨機排序,這會導致查詢花費幾秒鐘,這並不理想。 我認爲non-filtered結果集的另一種方法是讓PHP選擇一些在1-7,000,000左右的隨機數,然後用查詢做一個IN(...)只抓住這些行 - 是的,我知道這種方法有一個警告,因爲如果具有該ID的記錄不再

    -2熱度

    1回答

    我期望爲大型數據集實現存儲和搜索解決方案,該解決方案擁有超過400萬個文檔。每個文檔將有40個或更多的字段(或搜索標準) 我以前曾與Lucene和Solr合作,所以我傾向於將它們用於此問題(當然歡迎任何其他想法和解決方案)。但是錯誤的是存儲效率和可擴展性。我一直在尋找Cassandra和MongoDB以及其他NoSQL解決方案,但無法確定哪種技術最適合這種需求。 我想問一下,如果有人曾經遇到過類似