2013-02-16 98 views
0

首先,我在數據預處理方面很差。我正在尋找libsvm格式的WebKB數據。後來在互聯網上搜索了很多東西之後,我發現了在取詞和停詞消除後獲得的這些數據。格式如下,
每一行表示一個向量,每個文件中的第一個單詞包含類名,後跟一些單詞列表,這些單詞構成由空格分隔的功能。
如何將這樣的文本文件轉換爲lib-svm格式?是否有任何Weka或Matlab工具來構造它?從文本文件生成一個libsvm格式的數據

+0

似乎你錯過了數據的鏈接。你需要在你的問題中提供更多細節。 – iTech 2013-02-16 22:04:55

+0

@iTech [鏈接到WebKB數據集](http://web.ist.utl.pt/~acardoso/datasets/)。現在,看起來我必須自己預處理整個原始數據集[原始數據集](http://www-2.cs.cmu.edu/~webkb/)。是否有任何教程或軟件可用於將原始數據集轉換爲lib-svm格式? – 2013-02-17 04:00:13

回答

0

libshorttext1.1是一個python模塊,具有用於此目的的實用程序以及許多額外的功能。嘗試它,或者我認爲scikit學習軟件包也有這個功能