large-data

    1熱度

    3回答

    記錄爲了我,每天系統產生它包含了大約150萬條記錄的數據集: member_id,member_name,member_name_first_letter 我需要member_name asc 我已經嘗試得到有序列表MySQL,如果我通過member_name的第一個字母分解併爲每個人運行查詢一次(大約40個不同:AZ,數字,特殊字符)我可以在大約40分鐘內填滿表格,小時。爲了測試我只使用了130

    1熱度

    1回答

    我試着在Google和這個網站上搜索這個,但很難找到正確的,所以這可能已經被問及在某個地方回答,但我找不到它。 無論如何,我繼承了一些用於存儲文檔的代碼,這些代碼使用圖像數據類型來存儲文檔。我們有一個LINQ方法,它查詢返回包括文檔列在內的所有列的表,這可能使得這個操作非常昂貴,特別是因爲我們在使用此方法時從不使用客戶端上的文檔列。 這裏的當前代碼的一個片段: rtnList = (from

    2熱度

    2回答

    我正在開發在線聖經搜索程序。聖經是一本相當大的書,以純文本佔用了近5MB的空間。我計劃在該計劃中實施API,並允許其他網站包含他們自己的聖經搜索窗口小部件和程序,而無需開發搜索查詢或將自己的聖經存儲在自己的服務器上。 考慮到這一點,我預計最終我會有一個適度的查詢流程通過該程序。另外,對於那些不熟悉聖經的人,它有兩種格式化文本的方法。它可以包含紅色文本和斜體。我需要一種方式來存儲聖經以及紅色和斜體格

    12熱度

    2回答

    我將在mysqlDB中存儲大量矩陣數據什麼是存儲和訪問數據的最有效方式? 獲取數據時效率最重要,表格不會定期更新。 矩陣約爲100.000倍1000(可能在未來大) id1 value value_id1 id1 value value_id2 id2 value value_id1 id2 value value_id2 . . . id 100.000 v

    0熱度

    1回答

    我需要得到一個記錄集,我填了場1級爲每60條記錄,意味着我需要填寫1級領域是這樣的: 在POS = 1和POS = 60 1級= 1 上POS = 61和POS = 120 1級 = 2 上POS = 121和POS = 180與1級= 3 ... 然後:如果我讓' s說我必須爲pos = 601和630 level1 = 10設置630條記錄,因爲我沒有660條記錄,第630條記錄完成了這個級別

    1熱度

    1回答

    我是新來的大型數據庫,我有以下幾點: 表A - 20M行 表B - 500K行 而且很多疑問,特別是以下,永遠走。 UPDATE TableA AS A INNER JOIN TableB AS B ON B.Value IS NOT NULL AND A.Key=B.Key SET A.Value = B.Value WHERE A.Va

    8熱度

    1回答

    我有這一切似乎找到了可用的解決方案不工作一個非常普遍的問題。 我們正在接收業務的高量LAMP服務器。使用此服務器,我們執行常規文件提交上傳。在小文件上傳時,它可以很好地工作。在大約4-5MB的文件上,這個提交上傳失敗(有時可用,但很多次失敗)。 我們有我們的PHP配置如下: max_input_time: 600 max_execution_time: 600 max_upload_size:

    1熱度

    2回答

    要分析大量網站或財務數據並提取參數數據,最佳策略是什麼? 我將以下策略分爲「即時」或「延遲」。哪個最好? 的On-the-飛:在即時處理數據和存儲參數數據到數據庫 遞延:存儲所有的源數據爲ASCII到文件系統和後處理後,或用加工數據守護 遞延:存儲在數據庫中的所有頁面的BLOB以後後處理,或用加工數據守護 數字1是最簡單的,尤其是如果您只有一臺服務器。單個服務器可以使#2或#3效率更高,還是隻能看

    1熱度

    1回答

    R和Hadoop有關係嗎?據我所知,兩者都用於大規模數據分析和計算。另外我注意到谷歌和Facebook使用R,Mapreduce框架來自谷歌,他們使用它進行搜索。 R和Hadoop甚至可以媲美嗎?如果不是爲了什麼目的,每個人都使用?

    3熱度

    2回答

    我最近問了一個關於統計一個元素自身重複次數的問題(http://stackoverflow.com/questions/7669553/how-to-assign-在大數據框中重複數據塊到基於數據幀的元素識別/ 7669607#7669607)。我收到了一些非常有用的建議,這些建議對少量行有效,但現在需要在更大的層面上執行操作(超過255k行,使用ddply形成大約100k個「組」): syste