data-partitioning

    5熱度

    2回答

    散列和索引都用於在某些預定義的公式上對數據進行分區。但我無法理解兩者之間的主要區別。 正如哈希中一樣,我們在一些關鍵值對的基礎上劃分數據,同樣在索引中,我們也將數據劃分爲一些預定義值。 任何人都可以幫我解決哈希和索引之間的區別,以及如何決定是否使用哈希或索引。

    0熱度

    2回答

    我目前使用R通過使用隨機森林迴歸來執行特徵選擇。我想70:30分割我的數據,這很容易做到。但是,我希望能夠這樣做10次,每次10次獲得與之前不同的一組示例。 > trainIndex<- createDataPartition(lipids$RT..seconds., p=0.7, list=F) > lipids.train <- lipids[trainIndex, ] > lipids.

    2熱度

    1回答

    我的表有700萬條記錄,我根據ID做了14個分割表,每個分區包含500萬條記錄,分區大小爲40G。我想運行一個查詢來在一個分區中進行計數,但它會掃描所有分區,查詢的時間變得非常大。 SELECT COUNT(*) FROM Item WHERE IsComplated = 0 AND ID Between 1 AND 5000000 如何在一個分區上運行我的查詢而不掃描其他分區?

    0熱度

    1回答

    我有一個處理時間過長的大型多維數據集。我想更改我的多維數據集分區和處理選項。我明白過程增量會將新記錄拉入多維數據集。我的問題是,是否有多個分區和執行流程增量的優勢,而不是隻有一個分區和執行流程增量?我不希望每次處理時都有大量的新記錄。

    1熱度

    1回答

    我們已經有了一個windows azure表存儲系統,我們有各種實體類型在白天報告值,所以我們有以下分區和行關鍵方案: 大約有4000 - 5000個實體。有6種實體類型,類型大致均勻分佈。所以每個人約800人。 ParitionKey:的EntityType最新 行鍵:ENTITYID 每一行記錄值,該日期的實體。這是目前JSON序列化。 數據非常冗長。 我們會定期回顧這些分區在一個月或兩個月內

    3熱度

    1回答

    您好,以下是我的問題:Windows Azure table access latency Partition keys and row keys selection關於我在Azure存儲帳戶中組織數據的方式。我有一個表格存儲方案,旨在存儲有關實體的信息。 大約有4000-5000個實體。有6種實體類型,類型大致均勻分佈。所以每個人約800人。 ParitionKey:的EntityType最新

    0熱度

    2回答

    我寫一個函數,應該輸出的所有列表A. 此問題的K-方式劃分顯然是遞歸的,並且實施應該是直接的: def gen_partition_k_group(A, k): # if len(A) == 0 : # EDITED FOLLOWING SUGGESTION yield [ [] for _ in xrange(k) ] # else

    1熱度

    1回答

    我有一個表(比如AUDIT),數據可追溯到10年。很少會查詢1歲以上的數據,完整備份開始時間過長。所以,我決定採用表分區和部分備份,所以如果(當!)我需要恢復數據庫時,我可以先恢復經常查詢的數據,然後再恢復舊數據。 我在它的日期時間列(AUDIT_DT)上對AUDIT表進行分區,將最近12個月的數據與舊數據分開。 PRIMARY分區保存最近12個月的數據,而OLD_AUDIT_ARCHIVE(只讀

    0熱度

    1回答

    我對Azure表存儲非常陌生,分區鍵的概念仍然是一個我還沒有信心知道我是否正確進行的區域。以下是我提出的用於存儲博客文章評論數據的解決方案。我已經評論過所有的東西,所以我希望我的想法是基於代碼的自我解釋。 行和分區鍵看起來好嗎? 我真的需要一個名爲「CommentId?」的字段嗎? (在我看到的例子中,似乎沒有具體的ID字段,就像傳統SQL存儲中的字段一樣。 表的範圍應該是什麼?(我目前設想所有博

    2熱度

    1回答

    Greeings, 我配置了3節點Cassandra 1.2.12集羣,並且我能夠連接到主節點並在所有節點上創建密鑰空間和表。但是,我想在羣集上運行YCSB,因此當我運行YCSB並加載數據時,它全部加載到Master上。由於我正在加載1000000條記錄,我通過將該數除以我擁有的節點數來計算出初始令牌。 當我運行nodetool我得到的是這樣的: Address Rack Status State