large-data-volumes

0熱度

2回答

PHP Fatal error: Out of memory (allocated 26214400) (tried to allocate 9175041 bytes) in ... 我遇到了這個問題，我注意到了。我在嘗試編寫大型腳本時遇到了內存不足相關的500互聯網服務器錯誤。在某種意義上說，我做了一個查詢，提供了4000或5000行，並且我嘗試使用foreach（在這種情況下用於提取ex

0熱度

3回答

在MYSQL中通過一個varchar列快速排序10億行

我有10億行存儲在MYSQL中，我需要按字母順序輸出它們的varchar列，那麼最有效的方法是什麼。允許使用其他類似awk的linux實用程序。

2熱度

1回答

我可以分解一個大規模的相關矩陣嗎？

相關矩陣非常大（50000by50000），因此在計算我想要的內容時效率不高。我想要做的就是把它分解成組，並把它們當作獨立的相關矩陣。但是，我該如何處理這些較小的相關矩陣之間的依賴關係呢？我一直在網上一直在研究，但沒有出現。應該有一些算法與這種大相關矩陣的近似有關，對嗎？

0熱度

2回答

搜索大的數據爲多個串

我正在與兩組數據工作集：集1具有在單個列500個成員（所有字符串）組2具有兩列（製表符分隔）其中30000個成員第1列是數字ID號，第2列是字符串分隔列表（10,000種可能性）。我需要搜索第2集第2集中的字符串，並用至少1個匹配標記（或隔離）第2集中的所有行。點擊也需要非常具體（即，我想抓住「傑克有一個網球」，但不是「我喜歡傑克有一個網球袋」）。如果有幫助，我可以找出所有需要特別避免的字符

6熱度

5回答

如何確定兩個大型數據集之間的差異？

我有large datasets數以百萬計的XML格式的記錄。這些數據集是數據庫的完整數據轉儲，直到某個時間點。兩次轉儲之間可能已添加新條目，而現有條目可能已被修改或刪除。假設架構保持不變，並且每個條目都有一個唯一的ID。確定這些數據集中的兩個（包括刪除和更新）之間的增量的最佳方法是什麼？我的計劃是將所有內容加載到RDBMS並從那裏開始。首先，加載較舊的轉儲。然後，將較新的轉儲加載到不同的

0熱度

1回答

地穴大量的PHP

數據我開發具有隱窩數據之前將其發送到相同的軟（有解密它當然）的另一個實例軟件。我先用openssl_public_encrypt/openssl_private_decrypt，像 foreach(str_split($sData, MAXSIZE) as $sChunk) { if(! @openssl_public_encrypt($sChunk, $crypted, $sPubl

7熱度

1回答

大型稀疏矩陣的奇異值分解的Java實現

我只是想知道是否有人知道大型稀疏矩陣的奇異值分解（SVD）的Java實現？我需要執行潛在語義分析（LSA）。我嘗試過來自UJMP和JAMA的軟件包，但是當行數> = 1000和col> = 500時，它們會窒息。如果任何人都可以指向我的psuedocode或其他東西，那將不勝感激。

1熱度

2回答

在Linux上編輯大型文本文件（5 - 10GB）

基本上，我需要一個指定格式和大尺寸（大約10GB）的文件。爲了得到這個，我將我的原始文件的內容複製到同一個文件中多次，以增加它的大小。只要他們具有所需的格式，我不在乎文件的內容。最初，我試圖用gedit來做到這一點，後者在幾個100mbs後慘敗了。我正在尋找一位能幫助我做到這一點的編輯。或者，可以是替代方式

5熱度

5回答

「模擬」 64位整數有兩個32位整數

我正在寫一個非常計算密集的過程用於在移動設備和我限制爲32位CPU。實質上，我正在執行大量數據集（> 12k有符號16位整數）的點積。浮點運算速度太慢，所以我一直在尋找一種方法來執行與整數類型相同的計算。我偶然發現了一種叫做Block Floating Point算術的算法（鏈接論文第17頁）。它做得相當不錯，但是現在我面臨着32位的問題，僅僅不足以存儲足夠精確的計算結果。只是爲了澄清，這還不夠

0熱度

2回答

Sharepoint 2007列表中包含12,000個項目的Web服務查詢無法返回所有文檔

我們正在使用列表Web服務查詢包含超過12,000個文檔的大型SP 2007文檔庫，以進行文檔比較。所有查詢均使用CAML構建，以限制列表中某個字段返回的結果。通常，CAML查詢將返回不超過200條記錄。不幸的是，我們發現一個查詢將返回20個文檔，15分鐘後完全相同的查詢將返回23個文檔。由於此爬網時間過後發生，因此在此期間不可能添加文檔。有沒有人遇到類似的問題？