我有一個包含三個字段的數據集:id,特徵和頻率。我想要做的是找出一組給定的id,哪個特徵具有最大的頻率分佈。我想要的結果是,如果我將id組分組爲兩個子組,使用該特徵的頻率中值,則我有兩組彼此之間差異最大但尺寸大致相同的組。 我的第一個想法是,我計算每個特徵的頻率方差,並使用方差最高的特徵。 給定一個數據庫表,其看起來像這樣: id | feature | frequency
---+------
當我試圖處理使用一組隨機數據作爲熵源時,出現了數學/編程問題。在這種情況下,我使用Random.org的pregenerated random files作爲熵源。像這樣的原始數據是隨機的零和1,並且可以作爲隨機字節(0-255)或更大的範圍作爲二的冪。我試圖儘可能高效地使用這個隨機源,因爲它的長度是有限的,所以我不想使用比我需要的更大的集合。 如果你想要一個可以被256整除的範圍(例如100到3