large-data

1熱度

3回答

記錄爲了我，每天系統產生它包含了大約150萬條記錄的數據集： member_id，member_name，member_name_first_letter 我需要member_name asc 我已經嘗試得到有序列表MySQL，如果我通過member_name的第一個字母分解併爲每個人運行查詢一次（大約40個不同：AZ，數字，特殊字符）我可以在大約40分鐘內填滿表格，小時。爲了測試我只使用了130

1熱度

1回答

如何通過LINQ處理圖片數據類型

我試着在Google和這個網站上搜索這個，但很難找到正確的，所以這可能已經被問及在某個地方回答，但我找不到它。無論如何，我繼承了一些用於存儲文檔的代碼，這些代碼使用圖像數據類型來存儲文檔。我們有一個LINQ方法，它查詢返回包括文檔列在內的所有列的表，這可能使得這個操作非常昂貴，特別是因爲我們在使用此方法時從不使用客戶端上的文檔列。這裏的當前代碼的一個片段： rtnList = (from

2熱度

2回答

存儲大量可搜索文本文件的最佳方式

我正在開發在線聖經搜索程序。聖經是一本相當大的書，以純文本佔用了近5MB的空間。我計劃在該計劃中實施API，並允許其他網站包含他們自己的聖經搜索窗口小部件和程序，而無需開發搜索查詢或將自己的聖經存儲在自己的服務器上。考慮到這一點，我預計最終我會有一個適度的查詢流程通過該程序。另外，對於那些不熟悉聖經的人，它有兩種格式化文本的方法。它可以包含紅色文本和斜體。我需要一種方式來存儲聖經以及紅色和斜體格

12熱度

2回答

在MySQL中存儲和訪問巨大數據矩陣的最有效方法

我將在mysqlDB中存儲大量矩陣數據什麼是存儲和訪問數據的最有效方式？獲取數據時效率最重要，表格不會定期更新。矩陣約爲100.000倍1000（可能在未來大） id1 value value_id1 id1 value value_id2 id2 value value_id1 id2 value value_id2 . . . id 100.000 v

0熱度

1回答

MySQL的副位置計數器

我需要得到一個記錄集，我填了場1級爲每60條記錄，意味着我需要填寫1級領域是這樣的：在POS = 1和POS = 60 1級= 1 上POS = 61和POS = 120 1級 = 2 上POS = 121和POS = 180與1級= 3 ... 然後：如果我讓' s說我必須爲pos = 601和630 level1 = 10設置630條記錄，因爲我沒有660條記錄，第630條記錄完成了這個級別

1熱度

1回答

我應該更改大型表加入和更新的MySQL my.ini參數？

我是新來的大型數據庫，我有以下幾點：表A - 20M行表B - 500K行而且很多疑問，特別是以下，永遠走。 UPDATE TableA AS A INNER JOIN TableB AS B ON B.Value IS NOT NULL AND A.Key=B.Key SET A.Value = B.Value WHERE A.Va

8熱度

1回答

PHP連接重置上傳不管正確設置

我有這一切似乎找到了可用的解決方案不工作一個非常普遍的問題。我們正在接收業務的高量LAMP服務器。使用此服務器，我們執行常規文件提交上傳。在小文件上傳時，它可以很好地工作。在大約4-5MB的文件上，這個提交上傳失敗（有時可用，但很多次失敗）。我們有我們的PHP配置如下： max_input_time: 600 max_execution_time: 600 max_upload_size:

1熱度

2回答

用於大規模分析的Python策略（即時或延期）

要分析大量網站或財務數據並提取參數數據，最佳策略是什麼？我將以下策略分爲「即時」或「延遲」。哪個最好？的On-the-飛：在即時處理數據和存儲參數數據到數據庫遞延：存儲所有的源數據爲ASCII到文件系統和後處理後，或用加工數據守護遞延：存儲在數據庫中的所有頁面的BLOB以後後處理，或用加工數據守護數字1是最簡單的，尤其是如果您只有一臺服務器。單個服務器可以使＃2或＃3效率更高，還是隻能看

1熱度

1回答

R和Hadoop有關係嗎？

R和Hadoop有關係嗎？據我所知，兩者都用於大規模數據分析和計算。另外我注意到谷歌和Facebook使用R，Mapreduce框架來自谷歌，他們使用它進行搜索。 R和Hadoop甚至可以媲美嗎？如果不是爲了什麼目的，每個人都使用？

3熱度

2回答

ddply用於拆分R中大量類別的問題

我最近問了一個關於統計一個元素自身重複次數的問題（http://stackoverflow.com/questions/7669553/how-to-assign-在大數據框中重複數據塊到基於數據幀的元素識別/ 7669607＃7669607）。我收到了一些非常有用的建議，這些建議對少量行有效，但現在需要在更大的層面上執行操作（超過255k行，使用ddply形成大約100k個「組」）： syste