word-frequency

    11熱度

    5回答

    這看起來應該是一個明顯的問題,但列表中的教程和文檔不是即將發佈的。其中許多問題源自我的文本文件(數百MB)的龐大規模,我試圖將它們歸結爲我的系統可管理的東西。因此,我正在細分我的工作,現在正在努力將結果合併起來。 我有多個詞頻列表(約40人)。這些列表可以通過Import []或作爲Mathematica中生成的變量來執行。出現的每個列表作爲以下,並使用已經生成的帳簿[]和排序[]命令: {{ 「

    0熱度

    1回答

    我正在嘗試使用Mongo存儲字頻數據。每個單詞都需要與用戶相關聯,以便我可以計算出每個單詞使用每個單詞的頻率。目前我收集的文字如下: {'Hello':3, 'user_id':1} 這顯然只適用於'一對一'的基礎,並不好。 我想了解如何最好地使這個用戶和單詞之間的'一對多'關係。我會存儲用戶的關係在我的文字收集像這樣: {'word':"Hello", 'users':[{'id':1, '

    2熱度

    1回答

    我正在尋找Objective-C中的標籤雲,我試圖找到一個好的算法。我已經嘗試了幾個,起初看起來工作得很好,但它們都有一個缺陷:如果出現次數最少的單詞出現頻率最高的單詞頻繁出現,那麼整個過程是有缺陷的。 實施例(在谷歌第一算法): var multiplier = (maxPercent-minPercent)/(max-min); var size = minPercent + ((max-(

    2熱度

    5回答

    我現在很困惑。我應該編寫一個使用散列表的程序。散列表包含單詞以及它們的使用頻率。 「Word」類包含一個計數器和字符串。如果該單詞已在表格中,則其頻率增加。我一直在研究如何做到這一點,但我失去了。我需要指出正確的方向。任何幫助都會很棒。

    7熱度

    3回答

    我正在解析一長串文本並計算每個單詞在Python中出現的次數。我有一個可行的功能,但我正在尋找建議,以確定是否有方法可以使它更高效(速度方面),以及是否有甚至可以爲我這樣做的Python庫函數,所以我不會重新發明輪子? 您能否提出一種更有效的方法來計算長字符串中出現的最常見單詞(通常在字符串中超過1000個單詞)? 此外什麼是最好的方法來排序詞典到第一個元素是最常用的單詞,第二個元素是第二個最常見

    1熱度

    4回答

    有一個包含幾個文本文件的目錄。如何計算每個文件中每個單詞的頻率?一個字是指一組可以包含字母,數字和下劃線字符的字符。

    2熱度

    2回答

    我正在寫一個perl腳本,其中a應該處理文本,然後向詞典提供詞頻,然後對詞典進行排序。該文本是Edgar Poe的「Golden Bug」的摘錄,目的是計算所有單詞的頻率。但我做錯了,因爲我沒有輸出。我什麼時候做錯了?謝謝。 open(TEXT, "goldenbug.txt") or die("File not found"); while(<TEXT>) { chomp; $_=lc;

    3熱度

    3回答

    我對Perl很新,我正在嘗試寫一個詞頻計數器作爲學習練習。 但是,在處理它之後,我無法弄清我的代碼中的錯誤。這是我的代碼: $wa = "A word frequency counter."; @wordArray = split("",$wa); $num = length($wa); $word = ""; $flag = 1; # 0 if previous character wa

    1熱度

    4回答

    我目前正在學習二叉樹和二叉搜索樹,而我正在研究的練習之一涉及讀取文本文件,按字母順序將每個單詞存儲在二進制樹中,並使用不同的方法遍歷樹。 這裏有精確的規格: 閱讀文本,並建立一個二叉搜索樹包含的文本(字母爲基礎)所有的話,存儲字和保持詞語的頻率的數量(數量每個單詞出現在文本中的次數),並執行類中提到的樹遍歷。 我的問題是,當我將它添加到樹中時,如何跟蹤一個單詞的頻率?我們從來沒有在課堂上覆蓋過相同

    1熱度

    3回答

    給定一個由單個空格分隔的單詞組成的字符串,按照它們出現在字符串中的次數排序,以降序打印單詞。 例如「AB BC BC」的輸入串將產生以下輸出: bc : 2 ab : 1 這個問題將如果C++的數據結構,如地圖,使用可以容易地得到解決。但是,如果問題只能在普通的老C中解決,那看起來就更難了。 我應該在這裏使用什麼樣的數據結構和算法?請儘可能詳細。我在DS和Algo方面很弱。 :-(