word-frequency

    3熱度

    2回答

    我想寫我自己的樸素貝葉斯分類器 我有一個這樣的文件: (這是垃圾郵件和火腿的消息,第一個字點的數據庫,以垃圾郵件或火腿,文本,直到EOLN是消息(尺寸:0.5 MB)從這裏http://www.dt.fee.unicamp.br/~tiago/smsspamcollection/) ham Go until jurong point, crazy.. Available only in bugi

    1熱度

    1回答

    提取我已經提取使用下面的代碼多種文件格式(PDF,HTML,DOC)文本(使用蒂卡) File file1 = new File("c://sample.pdf); InputStream input = new FileInputStream(file1); BodyContentHandler handler = new BodyContentHandler(10*1024*1024);

    1熱度

    3回答

    您好我已經在我的htmlfiles文件夾中存儲了3個html文件,這些文件使用tika提取文本並將其存儲到htmltextfiles文件夾中的文本文件中。對於htmltextfiles文件夾中的每個文本文件,我刪除了停用詞並顯示了前10個頻繁出現的單詞。 我htmltextfiles包含: java.txt file contains:This is Java Program written in

    4熱度

    4回答

    我正在使用Python將url解析爲單詞。我取得了一些成功,但我試圖減少歧義。例如,我給出以下網址 "abbeycarsuk.com" ,我的算法輸出: ['abbey','car','suk'],['abbey','cars','uk'] 顯然,第二解析是正確的,但第一個在技術上也同樣正確的是(顯然「 suk'是我正在使用的詞典中的一個詞)。 什麼會幫助我很多是如果有一個詞表在那裏,也包

    0熱度

    1回答

    我想從文本輸入中製作一個功能,就像這樣在圖片中產生一個詞頻圖。這張照片是來自一份報告,所以我不確定他們是如何做到的。

    1熱度

    2回答

    我寫了一個簡單的C程序,它讀取一個文件併產生一個包含每個單詞及其頻率的表格。 該程序的工作原理和我已經能夠在Linux上運行的終端顯示輸出,但是,我不知道如何讓生成的顯示產生包含詞頻輸出的.csv文件(因爲它在終端中)。 下面是我的程序的每個部分的代碼片段,因此您可以更好地瞭解它的結構。 int main { table (int *freqCount); processLi

    1熱度

    3回答

    我有以下矩陣,我認爲是稀疏的。我試圖轉換到密集使用x.dense格式,但它從來沒有工作。有關如何做到這一點的任何建議?,謝謝。 mx=[[(0, 2), (1, 1), (2, 1), (3, 1), (4, 1), (5, 3), (6, 4), (7, 2), (8, 5), (9, 1)], [(10, 1), (11, 5), (12, 2), (13, 1), (21, 1), (22

    0熱度

    1回答

    兩個詞有很多的在線資源,顯示瞭如何做一個字計數單個單詞 像this和this和this和其他... 但我不是不能找到一個兩字計數頻率的具體例子。 我有一個csv文件,它有一些字符串。 FileList = "I love TV show makes me happy, I love also comedy show makes me feel like flying" 所以,我所要的輸出如:

    0熱度

    1回答

    我有一個三列的文件(用\ t分隔;第一列是詞,第二列是詞條,第三列是標籤)。有些行只包含點或逗號。 <doc n=1 id="CMP/94/10"> <head p="80%"> Customs customs tag1 union union tag2 in in tag3 danger danger tag4 of of tag5 the the tag6 </head> <

    2熱度

    1回答

    我需要創建一個詞組頻率表,計算幾百萬字單詞的一個非常大的集合中的所有短語。最終的結果將是,如什麼是這裏創建一個表: http://www.hermetic.ch/wfca/phrases.htm 什麼將是一個有效的算法來實現這一點?如果你能夠展示一些細節,在Ruby中看到它會更好。或者,坦率地說,我甚至可以使用xapian或者lucene,但是沒有看到用這些方法來實現這個目的的方法,就是根據需要建