large-data-volumes

    0熱度

    2回答

    PHP Fatal error: Out of memory (allocated 26214400) (tried to allocate 9175041 bytes) in ... 我遇到了這個問題,我注意到了。我在嘗試編寫大型腳本時遇到了內存不足相關的500互聯網服務器錯誤。在某種意義上說,我做了一個查詢,提供了4000或5000行,並且我嘗試使用foreach(在這種情況下用於提取ex

    0熱度

    3回答

    我有10億行存儲在MYSQL中,我需要按字母順序輸出它們的varchar列,那麼最有效的方法是什麼。允許使用其他類似awk的linux實用程序。

    2熱度

    1回答

    相關矩陣非常大(50000by50000),因此在計算我想要的內容時效率不高。我想要做的就是把它分解成組,並把它們當作獨立的相關矩陣。但是,我該如何處理這些較小的相關矩陣之間的依賴關係呢?我一直在網上一直在研究,但沒有出現。應該有一些算法與這種大相關矩陣的近似有關,對嗎?

    0熱度

    2回答

    我正在與兩組數據工作集: 集1具有在單個列500個成員(所有字符串) 組2具有兩列(製表符分隔)其中30000個成員第1列是數字ID號,第2列是字符串分隔列表(10,000種可能性)。 我需要搜索第2集第2集中的字符串,並用至少1個匹配標記(或隔離)第2集中的所有行。點擊也需要非常具體(即,我想抓住「傑克有一個網球」,但不是「我喜歡傑克有一個網球袋」)。如果有幫助,我可以找出所有需要特別避免的字符

    6熱度

    5回答

    我有large datasets數以百萬計的XML格式的記錄。這些數據集是數據庫的完整數據轉儲,直到某個時間點。 兩次轉儲之間可能已添加新條目,而現有條目可能已被修改或刪除。假設架構保持不變,並且每個條目都有一個唯一的ID。 確定這些數據集中的兩個(包括刪除和更新)之間的增量的最佳方法是什麼? 我的計劃是將所有內容加載到RDBMS並從那裏開始。 首先,加載較舊的轉儲。然後,將較新的轉儲加載到不同的

    0熱度

    1回答

    數據我開發具有隱窩數據之前將其發送到相同的軟(有解密它當然)的另一個實例軟件。我先用openssl_public_encrypt/openssl_private_decrypt,像 foreach(str_split($sData, MAXSIZE) as $sChunk) { if(! @openssl_public_encrypt($sChunk, $crypted, $sPubl

    7熱度

    1回答

    我只是想知道是否有人知道大型稀疏矩陣的奇異值分解(SVD)的Java實現?我需要執行潛在語義分析(LSA)。 我嘗試過來自UJMP和JAMA的軟件包,但是當行數> = 1000和col> = 500時,它們會窒息。如果任何人都可以指向我的psuedocode或其他東西,那將不勝感激。

    1熱度

    2回答

    基本上,我需要一個指定格式和大尺寸(大約10GB)的文件。爲了得到這個,我將我的原始文件的內容複製到同一個文件中多次,以增加它的大小。只要他們具有所需的格式,我不在乎文件的內容。 最初,我試圖用gedit來做到這一點,後者在幾個100mbs後慘敗了。我正在尋找一位能幫助我做到這一點的編輯。或者,可以是替代方式

    5熱度

    5回答

    我正在寫一個非常計算密集的過程用於在移動設備和我限制爲32位CPU。實質上,我正在執行大量數據集(> 12k有符號16位整數)的點積。浮點運算速度太慢,所以我一直在尋找一種方法來執行與整數類型相同的計算。我偶然發現了一種叫做Block Floating Point算術的算法(鏈接論文第17頁)。它做得相當不錯,但是現在我面臨着32位的問題,僅僅不足以存儲足夠精確的計算結果。 只是爲了澄清,這還不夠

    0熱度

    2回答

    我們正在使用列表Web服務查詢包含超過12,000個文檔的大型SP 2007文檔庫,以進行文檔比較。 所有查詢均使用CAML構建,以限制列表中某個字段返回的結果。 通常,CAML查詢將返回不超過200條記錄。 不幸的是,我們發現一個查詢將返回20個文檔,15分鐘後完全相同的查詢將返回23個文檔。 由於此爬網時間過後發生,因此在此期間不可能添加文檔。 有沒有人遇到類似的問題?