word-frequency

    1熱度

    1回答

    我想從solrj QueryResponse對象中獲得一個TermsResponse對象,但它似乎沒有工作。我正在使用scala,但我也會對一個可用的java示例感到滿意。 首先,我設置了術語矢量查詢,看起來是工作: val solrurl = "http://localhost:8983/solr" val server= new HttpSolrServer(solrurl) val qu

    12熱度

    2回答

    我有一個包含1000個元素及其各自的頻率的數據集。我需要繪製排名前10的元素的直方圖。 我所做的: top_words = Counter(my_data).most_common() top_words_10 = top_words[:10] plt.hist(top_words_10,label='True') ,並得到這個錯誤: TypeError

    8熱度

    1回答

    我正在考慮編寫一個程序來爲我收集大量文本中最常見的短語。如果將問題簡化爲只是查找單詞,那麼將這些問題簡單到將每個新單詞存儲在散列映射中,然後在每次出現時增加計數。但用短語來說,將每個句子的排列作爲關鍵詞來存儲似乎是不可行的。 基本上,問題被縮小到了解如何從足夠大的文本中提取每個可能的短語。對短語進行計數,然後按出現次數進行排序變得微不足道。

    0熱度

    1回答

    對於給定的行,我有一個包含單詞及其頻率的輸入,但是,我希望有一個總詞頻計數。我知道有很多解決方案可以從整個文件中計算詞頻,但是我的輸入在每一行的周圍都有括號,每個單詞的周圍都有括號。由於每行的單詞數量不同,因此我無法提取單詞並進行計數。任何幫助將不勝感激! 樣本輸入: [('Company', 1)] [('Tax', 1), ('Service', 1)] [('"Birc

    1熱度

    2回答

    我正在使用python 2.7。 我想統計一下中文單詞的頻率。 我如何使用我的標記化列表來做到這一點?我想在下一步找到句子的位置。 所以,希望我可以統計出單詞的頻率,並給出每個單詞在同一時刻的出發點和結束點。 我試圖從輸入文件中計算詞頻,這與我的標記化無關。但它也給我一個錯誤的結果。 對於櫃檯的一部分,它讓我看到這一點: 計數器({U '\ u7684':1}),但我預期的結果是計數器({ '的'

    1熱度

    1回答

    我有一組參考詞(拼寫正確),我需要輸入一個用戶輸入詞。使用levenshtein距離將輸入詞與參考列表進行比較,我需要從參考列表中返回具有最低成本的詞。此外,該參考列表按頻率排序,因此較高的頻率出現在頂部。如果2個字的距離相同,則返回頻率更高的字。 「NWORDS」是我根據頻率排序的參考列表。 「候選人」是用戶輸入的單詞。 代碼: for word in NWORDS: #iterate over

    2熱度

    1回答

    多年來,我一直希望能夠處理不同質量的頻率列表(字符,單詞,n-gram等),但從未想出如何將它們一起使用。 當時我直覺認爲只有排名的列表並沒有其他數據應該是有用的。從那時起,我已經瞭解到Zipf's law和power laws。雖然我數學不好,所以我沒有完全理解所有的東西。 我在StackOverflow和CrossValidated中發現了一些看起來可能相關的問題。但是我要麼在正確的層面上理解

    1熱度

    3回答

    我已經在python中創建了一個簡單的字數計算程序,它讀取文本文件,計算字頻率並將結果寫入另一個文件。問題在於當單詞重複時,程序寫入同一單詞的首字母和最後一個單詞。例如,如果「你好」被重複字說3次,則程序在輸出寫入你好的3實例爲: 字 - 頻率計數 你好 - 1 你好 - 2 你好 - 3 的代碼是: counts ={} for w in words: counts[w] = counts.

    1熱度

    2回答

    我有一個從文本文件中爲字頻計數的python代碼。該計劃的問題在於,它需要考慮到因此改變計數。爲了計算單詞,我使用了一個排序的單詞列表。我試着用 words = open(f, 'r').read().lower().split() uniqueword = sorted(set(words)) uniqueword = uniqueword.replace(".","") 刪除句號,但我

    4熱度

    1回答

    我有一個名爲'ticket_diary_comment'的表,其列名爲'comment_text'。該列填充了文本數據。我想獲得整個專欄中出現的所有單詞的頻率。例如: Comment_Text I am a good guy I am a bad guy I am not a guy 我想要什麼: Word Frequency I 3 good 1 bad 1 not 1