information-theory

    0熱度

    2回答

    我正在尋找編碼user_ids在長長的通話記錄列表。佔用最多空間的這些記錄的部分是呼叫者和接收者的符號。我將創建一個映射,將最活躍的調用者分配更短的符號---這將有助於保持文件的整體大小(並因此減少I/O時間)。 我事先知道多少次的每個符號將被用於---換句話說,我所知道的相對概率分佈。此外,生成的代碼是「前綴無關」的,例如霍夫曼代碼並不重要。那麼什麼是最好的編碼方案,即能夠提供最大壓縮率和快速實

    4熱度

    3回答

    爲什麼在決策樹分支中使用Shannon熵度量? 熵(S)= - P(+)的日誌(P(+)) - P( - )的日誌(P( - )) 我知道這是沒有的量度。編碼信息所需的位數;分佈越均勻,熵越多。但我不明白爲什麼它經常用於創建決策樹(選擇分支點)。

    6熱度

    3回答

    是否有任何論文描述了從編譯程序推斷子程序的任何算法/技術?換句話說:有沒有一種算法來查找在程序中出現多次的代碼塊?這些塊可以將指令重新排序(當然,程序行爲沒有改變),以便更有可能找到匹配。 這個過程可以看作是由編譯器完成的子例程內聯的對立面,以避免調用,但增加了二進制大小。 在我看來,這是一個非常困難的理論問題。

    6熱度

    1回答

    我有一個方形矩陣,它表示數據集中共現事件的頻率計數。換句話說,這些行表示特徵1的所有可能的觀察值,並且這些列是特徵2的可能觀察值。單元格(x,y)中的數目是特徵1被同時觀察爲x的次數特徵2是y。 我想計算矩陣中包含的互信息。 MATLAB有一個內置的information函數,但它需要2個參數,一個用於x,另一個用於y。我將如何操作這個矩陣來獲得它期望的參數? 或者,我寫了自己的互信息函數,它需要

    0熱度

    1回答

    我有一些英文書寫文本並計算它的熵。然而我意識到基於LZ方法的壓縮算法在熵給定的限制下壓縮得非常少。 這是由於模擬英文文本的信息來源具有記憶。 所以壓縮的邊界由熵率給出,而不是由該熵的熵給出。 我看到了帶有記憶的信息源熵率的定義,但想知道如何用英文寫的文本的算法或僞代碼計算熵率。 任何想法? 感謝您的幫助。

    12熱度

    5回答

    Jeff Atwood最近在推特上發佈了一篇CodeReview帖子的鏈接,他想知道社區是否可以改進他的「calculating entropy of a string」代碼片段。他解釋說,「我們正在計算堆棧溢出中幾個地方的字符串的熵作爲低質量的指示符。」 他的方法的要點似乎是如果算上字符串中的唯一的字符數,這意味着熵(從PieterG's answer採取代碼): int uniqueChara

    0熱度

    1回答

    如何可以生成長度Ñ的二元結果的流與相等數量的0的和1的,但有成對的結果的偏置頻率,即給定的變換率ķ(freq(01) + freq(10))/(freq(00) + freq(11)) = k

    9熱度

    3回答

    我有一套隨機生成的形式圖,我想計算每一個的熵。同樣的問題換句話說:我有幾個網絡,並且想要計算每個網絡的信息內容。 下面是含有圖熵的正式定義兩個來源: http://www.cs.washington.edu/homes/anuprao/pubs/CSE533Autumn2010/lecture4.pdf(PDF) http://arxiv.org/abs/0711.4175v1 我尋找的代碼採用的

    2熱度

    1回答

    在將相位空間分爲Alpha分區時,它的目的是要找出該分區的性能如何。從這個角度來看,我們需要找出源熵。現在,我搜索了很多,但找不到熵源是什麼。任何人都可以解釋: 香農的熵如何與源熵不同以及如何實現源熵? 如何計算通道容量?以下是用於計算數據x的香農熵的代碼。如果修改以下代碼以計算通道容量,我將不勝感激。 x = x(1:end); if nargin == 1 p = f

    2熱度

    1回答

    當使用大約3000字的大文檔計算兩個詞之間的MI時,當我計算文檔中第一個不會重複的詞的概率時,它非常低且相同第二個字;這個低值影響聯合概率= p(x) * P(y),導致相互信息的值爲零或NaN。我怎樣才能避免這種情況?