2009-10-29 51 views
0

我從互聯網抓取數據,沒有分類。有沒有一個衆所周知的分類器庫?

有沒有這樣的圖書館推薦?

編輯

我爬行來自其他網站的工作,我需要將它們分組到不同的行業。

+0

如果你想分組他們,你需要聚類,而不是分類。 – michaeltwofish 2010-09-08 00:02:49

回答

0

我目前的僱主開發了一個系統來對網頁進行分類。沒有任何有用的圖書館,我們可以找到,所以我們必須做我們自己的。我們不允許我們出去。

我可以給你一些提示。垃圾郵件分析器將電子郵件分爲垃圾或不垃圾。您可以使用貝葉斯,CRM-114等相同工具對任何文本(包括網頁)進行自己的分類。

你將不得不非常仔細地觀察這些結果,並給他們lot人類的反饋意見。你經常可以找到關鍵詞集合,這些集合對你而言會非常好。查找這些關鍵字集需要時間和精力,並且隨着時間的推移會發生一些變化。

您將不得不編寫代碼將網頁劃分爲主題部分,因爲大多數頁面並非都是一回事。有廣告框架,導航和其他東西。

1

要將未標記的數據排序到組中,您需要羣集,而不是分類。最完整的機器學習庫是基於Java的Weka。您可能首先需要從網頁中提取文本(完全刪除腳本和樣式元素,去除其他標籤),然後在執行羣集之前通過StringToWordVector過濾器運行文本。

相關問題