word-frequency

3熱度

2回答

我想寫我自己的樸素貝葉斯分類器我有一個這樣的文件：（這是垃圾郵件和火腿的消息，第一個字點的數據庫，以垃圾郵件或火腿，文本，直到EOLN是消息（尺寸：0.5 MB）從這裏http://www.dt.fee.unicamp.br/~tiago/smsspamcollection/） ham Go until jurong point, crazy.. Available only in bugi

1熱度

1回答

如何從文本中經常存在的話使用蒂卡

提取我已經提取使用下面的代碼多種文件格式（PDF，HTML，DOC）文本（使用蒂卡） File file1 = new File("c://sample.pdf); InputStream input = new FileInputStream(file1); BodyContentHandler handler = new BodyContentHandler(10*1024*1024);

1熱度

3回答

無法獲取多個文件的頂級頻繁字

您好我已經在我的htmlfiles文件夾中存儲了3個html文件，這些文件使用tika提取文本並將其存儲到htmltextfiles文件夾中的文本文件中。對於htmltextfiles文件夾中的每個文本文件，我刪除了停用詞並顯示了前10個頻繁出現的單詞。我htmltextfiles包含： java.txt file contains:This is Java Program written in

4熱度

4回答

包含英文單詞（包括頻率）的列表是否可用？

我正在使用Python將url解析爲單詞。我取得了一些成功，但我試圖減少歧義。例如，我給出以下網址 "abbeycarsuk.com" ，我的算法輸出： ['abbey','car','suk'],['abbey','cars','uk'] 顯然，第二解析是正確的，但第一個在技術上也同樣正確的是（顯然「 suk'是我正在使用的詞典中的一個詞）。什麼會幫助我很多是如果有一個詞表在那裏，也包

0熱度

1回答

詞頻圖形

我想從文本輸入中製作一個功能，就像這樣在圖片中產生一個詞頻圖。這張照片是來自一份報告，所以我不確定他們是如何做到的。

1熱度

2回答

C編程頻率計數器輸入/輸出

我寫了一個簡單的C程序，它讀取一個文件併產生一個包含每個單詞及其頻率的表格。該程序的工作原理和我已經能夠在Linux上運行的終端顯示輸出，但是，我不知道如何讓生成的顯示產生包含詞頻輸出的.csv文件（因爲它在終端中）。下面是我的程序的每個部分的代碼片段，因此您可以更好地瞭解它的結構。 int main { table (int *freqCount); processLi

1熱度

3回答

如何將稀疏矩陣轉換爲使用python的密集形式

我有以下矩陣，我認爲是稀疏的。我試圖轉換到密集使用x.dense格式，但它從來沒有工作。有關如何做到這一點的任何建議？，謝謝。 mx=[[(0, 2), (1, 1), (2, 1), (3, 1), (4, 1), (5, 3), (6, 4), (7, 2), (8, 5), (9, 1)], [(10, 1), (11, 5), (12, 2), (13, 1), (21, 1), (22

0熱度

1回答

字頻率計數根據使用python

兩個詞有很多的在線資源，顯示瞭如何做一個字計數單個單詞像this和this和this和其他... 但我不是不能找到一個兩字計數頻率的具體例子。我有一個csv文件，它有一些字符串。 FileList = "I love TV show makes me happy, I love also comedy show makes me feel like flying" 所以，我所要的輸出如：

0熱度

1回答

如何從整個文件的列表中統計詞頻？

我有一個三列的文件（用\ t分隔;第一列是詞，第二列是詞條，第三列是標籤）。有些行只包含點或逗號。 <doc n=1 id="CMP/94/10"> <head p="80%"> Customs customs tag1 union union tag2 in in tag3 danger danger tag4 of of tag5 the the tag6 </head> <

2熱度

1回答

如何在大集合中有效地計算所有短語？

我需要創建一個詞組頻率表，計算幾百萬字單詞的一個非常大的集合中的所有短語。最終的結果將是，如什麼是這裏創建一個表： http://www.hermetic.ch/wfca/phrases.htm 什麼將是一個有效的算法來實現這一點？如果你能夠展示一些細節，在Ruby中看到它會更好。或者，坦率地說，我甚至可以使用xapian或者lucene，但是沒有看到用這些方法來實現這個目的的方法，就是根據需要建