word-frequency

1熱度

1回答

solrj QueryResponse getTermsResponse返回null

我想從solrj QueryResponse對象中獲得一個TermsResponse對象，但它似乎沒有工作。我正在使用scala，但我也會對一個可用的java示例感到滿意。首先，我設置了術語矢量查詢，看起來是工作： val solrurl = "http://localhost:8983/solr" val server= new HttpSolrServer(solrurl) val qu

12熱度

2回答

無法使用彈性類型執行縮小plt.hist

我有一個包含1000個元素及其各自的頻率的數據集。我需要繪製排名前10的元素的直方圖。我所做的： top_words = Counter(my_data).most_common() top_words_10 = top_words[:10] plt.hist(top_words_10,label='True') ，並得到這個錯誤： TypeError

8熱度

1回答

查找大量文本中最常用短語的高效算法

我正在考慮編寫一個程序來爲我收集大量文本中最常見的短語。如果將問題簡化爲只是查找單詞，那麼將這些問題簡單到將每個新單詞存儲在散列映射中，然後在每次出現時增加計數。但用短語來說，將每個句子的排列作爲關鍵詞來存儲似乎是不可行的。基本上，問題被縮小到了解如何從足夠大的文本中提取每個可能的短語。對短語進行計數，然後按出現次數進行排序變得微不足道。

0熱度

1回答

如何解析括號以在python中總結詞頻3

對於給定的行，我有一個包含單詞及其頻率的輸入，但是，我希望有一個總詞頻計數。我知道有很多解決方案可以從整個文件中計算詞頻，但是我的輸入在每一行的周圍都有括號，每個單詞的周圍都有括號。由於每行的單詞數量不同，因此我無法提取單詞並進行計數。任何幫助將不勝感激！樣本輸入： [('Company', 1)] [('Tax', 1), ('Service', 1)] [('"Birc

1熱度

2回答

如何計算標記化列表中的中文詞頻？

我正在使用python 2.7。我想統計一下中文單詞的頻率。我如何使用我的標記化列表來做到這一點？我想在下一步找到句子的位置。所以，希望我可以統計出單詞的頻率，並給出每個單詞在同一時刻的出發點和結束點。我試圖從輸入文件中計算詞頻，這與我的標記化無關。但它也給我一個錯誤的結果。對於櫃檯的一部分，它讓我看到這一點：計數器（{U '\ u7684'：1}），但我預期的結果是計數器（{ '的'

1熱度

1回答

Levenshtein Python中的距離循環

我有一組參考詞（拼寫正確），我需要輸入一個用戶輸入詞。使用levenshtein距離將輸入詞與參考列表進行比較，我需要從參考列表中返回具有最低成本的詞。此外，該參考列表按頻率排序，因此較高的頻率出現在頂部。如果2個字的距離相同，則返回頻率更高的字。「NWORDS」是我根據頻率排序的參考列表。「候選人」是用戶輸入的單詞。代碼： for word in NWORDS: #iterate over

2熱度

1回答

比較頻率數據和zipf /等級數據

多年來，我一直希望能夠處理不同質量的頻率列表（字符，單詞，n-gram等），但從未想出如何將它們一起使用。當時我直覺認爲只有排名的列表並沒有其他數據應該是有用的。從那時起，我已經瞭解到Zipf's law和power laws。雖然我數學不好，所以我沒有完全理解所有的東西。我在StackOverflow和CrossValidated中發現了一些看起來可能相關的問題。但是我要麼在正確的層面上理解

1熱度

3回答

Python字頻計數程序

我已經在python中創建了一個簡單的字數計算程序，它讀取文本文件，計算字頻率並將結果寫入另一個文件。問題在於當單詞重複時，程序寫入同一單詞的首字母和最後一個單詞。例如，如果「你好」被重複字說3次，則程序在輸出寫入你好的3實例爲：字 - 頻率計數你好 - 1 你好 - 2 你好 - 3 的代碼是： counts ={} for w in words: counts[w] = counts.

1熱度

2回答

從Python中的列表中刪除fullstop，逗號，引號

我有一個從文本文件中爲字頻計數的python代碼。該計劃的問題在於，它需要考慮到因此改變計數。爲了計算單詞，我使用了一個排序的單詞列表。我試着用 words = open(f, 'r').read().lower().split() uniqueword = sorted(set(words)) uniqueword = uniqueword.replace(".","") 刪除句號，但我

4熱度

1回答

在SQL Server 2008列中出現的所有單詞的字數

我有一個名爲'ticket_diary_comment'的表，其列名爲'comment_text'。該列填充了文本數據。我想獲得整個專欄中出現的所有單詞的頻率。例如： Comment_Text I am a good guy I am a bad guy I am not a guy 我想要什麼： Word Frequency I 3 good 1 bad 1 not 1