partitioning

    0熱度

    1回答

    我有一個任務從特定年份的某些員工的表中獲取數據,但查詢需要大約兩年。 50分鐘可以獲得5萬條記錄。 表具有約。 6十億(6 * 10^9)數據 查詢: select a, b from t1 where t1.year in (2012,2013) and t1.name in (select name from name_tab fetch first 50000 rows on

    2熱度

    1回答

    我相信這是一個相當普遍的事情,但我找不到任何東西(我的網絡搜索功能不強)。 我有一個功能,可以組的列表到每個N個元素的列表的列表,與最終子列表是小於N如果列表的長度是不整除N.一些例子: groupEvery 2 [1,2,3,4] = [[1,2],[3,4]] groupEvery 4 [1,2,3,4,5,6,7,8,9,10] = [[1,2,3,4], [5,6,7,8], [9

    1熱度

    1回答

    我想要獲得多重集(某些元素相同且彼此不可區分)的所有可能分區(聯合是原始集的集合的不相交子集)。 簡單的情況下,當想要產生一個簡單集合的分區,其中沒有多重性的元素,換句話說,所有元素都是不同的。對於這種情況,我發現上StackOwerflow此Ruby代碼,這是非常有效的,因爲不存儲所有可能的分區,但是它們產生一個塊: def partitions(set) yield [] if se

    2熱度

    1回答

    我創建的數據庫 USE [master] GO CREATE DATABASE [testdb] CONTAINMENT = NONE ON PRIMARY (NAME = N'testdb', FILENAME = N'D:\MSSQL\Data\testdb.mdf' , SIZE = 8192KB , MAXSIZE = UNLIMITED, FILEGROWTH = 65536

    2熱度

    5回答

    我需要一個生成器來獲取一組「代理」和一組「項目」的輸入,並生成每個代理獲取相同數量項目的所有分區。例如: >>> for p in equalPartitions(["A","B"], [1,2,3,4]): print(p) {'A': [1, 2], 'B': [3, 4]} {'A': [1, 3], 'B': [2, 4]} {'A': [1, 4], 'B': [2, 3]} {

    12熱度

    2回答

    我想一個DataFrame保存到HDFS使用DataFrameWriter木地板格式,三個值分割,就像這樣: dataFrame.write.mode(SaveMode.Overwrite).partitionBy("eventdate", "hour", "processtime").parquet(path) 正如this question提到的,partitionBy將在path刪除分區

    0熱度

    1回答

    我想修改現有的表並在日期(列名 - date_abc)上創建分區,我沒有特定的日期值,因此每個日期值都會有一個單獨的分區以及類型(列名 - 類型)上的子分區,其可以是3個,即a,b和c。

    1熱度

    1回答

    我有一個表有100個分區, 我有明智地讀取數據分區的過程。 假設 P0是1個分區,如果我執行過程 exec xyz('P0'); 需要3分鐘爲50萬行執行。 但是,當我創建100個會話,並在不同的不同的會話 exec xyz('P1'); exec xyz('P2'); exec xyz('P3'); 需要1個小時的50M行 任何人都可以解釋爲什麼它的發生平行運行 類似。

    3熱度

    1回答

    我有一個表的字段,它是ACTION_TIME主鍵和類型爲datetime 我試圖打破它的分區 ALTER TABLE foo PARTITION BY RANGE (MONTH(action_time)) ( PARTITION p01 VALUES LESS THAN (02) , PARTITION p02 VALUES LESS THAN (03) , PARTITION p03 VA

    1熱度

    2回答

    我在Postgres數據庫的表中有很多行。 我每20分鐘在此表中插入一次,每天清除舊的條目,並且只有2個選擇選項。 所以我想優化時間,我等待我的選擇。 首先選擇一種: Select * from table where item=<item_id> 二是怎麼樣的: Select distinct(datetime) from table 因此,爲了優化1個選擇,我可能會讓indexies爲