bigdata

    1熱度

    1回答

    我有一個非常大的(約91萬次無零項)稀疏矩陣()中的R,看起來像: > myMatrix a b c a . 1 2 b 1 . . c 2 . . 我想將它轉化成一個三角矩陣(上或下),但是當我嘗試myMatrix = myMatrix * lower.tri(myMatrix)時,對於lower.tri()存在'問題太大'的錯誤。想知道是否有人可能知道解決方案。謝謝你的幫助

    1熱度

    1回答

    我正在閱讀一個大文件(超過十億條記錄),並將它與三個其他文件結合在一起,我想知道是否存在可以更高效地避免多次讀取的過程大桌子。小桌子可能不適合記憶。 A = join smalltable1 by (f1,f2) RIGHT OUTER,massive by (f1,f2) ; B = join smalltable2 by (f3) RIGHT OUTER, A by (f3) ; C =

    2熱度

    1回答

    我試圖對一組非常大的距離執行fastclust,但遇到問題。 我有一個非常大的CSV文件(約91萬行這樣一個循環時間過長的R)的關鍵字(約50,000獨特的關鍵字),當我讀入一個data.frame看起來像之間的相似性: > df kwd1 kwd2 similarity a b 1 b a 1 c a 2 a c 2 這是一個稀疏的清單,我可以將其轉換成使用稀疏矩陣()稀疏矩陣:

    0熱度

    2回答

    我想要更改爲包含所有成對相似性的格式的關鍵字之間有很大的相似性數據框。我現在的數據幀的樣子: > df kwd1 kwd2 sim 1 a b 1 2 b a 1 3 c a 2 4 a c 2 ,我想將其轉換爲以下形式的data.frame: > df kwd1 kwd2 sim a b 1 a c 2 b c 0 感謝您的幫助!

    2熱度

    1回答

    我有一個大的CSV關鍵字之間的相似性,我想將它轉化成一個三角形的距離矩陣的(因爲它是非常大而稀疏甚至會更好)進行分層聚類使用scipy。我現在的數據CSV樣子: a, b, 1 b, a, 1 c, a, 2 a, c, 2 我不知道如何做到這一點,我不能找到在python集羣任何簡單的教程。 感謝您的幫助!

    0熱度

    1回答

    現在,我有這樣的事情在我的笨模型: <?php $array = array(...over 29k IDs...); $update = array(); foreach ($array as $line) { $update[] = array('id' => $line, 'spintax' => $this->SpinTax($string)); ### $thi

    1熱度

    1回答

    我有大量的CSV格式的數據(7 Mio. rows),我必須在一個月內自動導入到SharePoint項目中一次。數據總量並不那麼大(100 kB)。該數據中的查詢通常只檢索一行或幾行) 由於SharePoint並不真正「喜歡」大列表(閾值等),我不知道哪個是解決瓶頸的最佳方法。 只要把數據放到列表 (會不會喜歡這個,導致即使刪除前進口肯定會需要幾個小時) 將數據保存到一個SQL的數據庫,並編寫了「

    5熱度

    2回答

    集做PCA我有一個CSV文件非常大的訓練集(〜2GB)。該文件是太大直接讀入內存(read.csv()帶來的計算機停頓),我想,以減少使用PCA數據文件的大小。問題在於(據我所知),我需要將文件讀入內存才能運行PCA算法(例如,princomp())。 我曾嘗試bigmemory包讀取文件中的big.matrix,但princomp不會對big.matrix對象功能,它似乎並不像big.matri

    1熱度

    1回答

    當使用DBOutputFormat與hadoop,說最後的結果是去MySql數據庫。每次必須寫入結果時,Hadoop是否會創建單獨的連接? (DB會負擔太多開放連接)。我沒有使用格式,所以任何建議都可以接受。性能優於Sqoop? Sqoop也可用於將輸出文件導出到數據庫。請分享您的觀點。

    2熱度

    1回答

    我需要找到大量數據流的任意分位數(不適合記憶),並且結果需要重複,即對於相同的數據流結果應該是相同的。我一直在使用這個小馬,結果是不可重複的。 那裏有另一個圖書館通過這些要求嗎? 我需要做些什麼才能使分位數分欄的結果與柯爾特重複(我正在使用1.2.0)?我在隨機數中使用了隨機種子,但它看起來像是小馬引入了它自己的隨機性。我無法弄清楚。 我得到了兩個不同運行的以下結果。如果他們是可重複的,其結果將是