2011-11-02 57 views
1

我目前正在研究需要數據庫分類網站(例如cnn.com =新聞)的項目。我們只需要廣泛的分類 - 我們不需要每個單獨分類的URL。我們正在和這些數據庫的通常供應商進行交流,但是我們收回的大多數報價都很昂貴,而且往往會帶來煩人的需求 - 比如不得不使用他們的SDK來查詢數據庫。樸素貝葉斯分類器在Mahout中的適用性,以分類網站

與此同時,我也一直在探索自己建立這樣一個數據庫的可能性。我意識到這不是一個5分鐘的工作,所以我正在做大量的研究。

從閱讀關於這個主題的各種論文看來,似乎樸素貝葉斯分類器通常是這樣做的標準方法。然而,許多論文都提出了改進其網絡分類準確性的增強措施 - 通常通過使用其他上下文信息,例如超鏈接,標題標籤,多詞短語,URL,詞頻等。

我一直在用Mahout的Naive Bayes分類器對20個新聞組測試數據集進行試驗,我可以看到它適用於網站分類,但我擔心它的準確性。

是否有人知道擴展Mahout中的貝葉斯分類器以考慮其他屬性的可行性?任何指針從哪裏開始將不勝感激。

或者,如果我吠叫完全錯誤的樹,請讓我知道!

回答

0

您可以根據自己的喜好控制輸入。最後,輸入只是一個特徵向量。特徵向量的特徵可以是單詞或雙格 - 但它們也可以是任何你想要的。所以,是的,您可以根據需要修改輸入來注入新功能。

如何最好地編織這些特徵完全是另一個話題 - 沒有最好的方法將它們轉換爲數字。 Mahout in Action涵蓋了這個相當好的FWIW。

+0

謝謝,我看到之前提到的那本書,我可以試試看。 如果我正確理解你的回答,你說我可以通過爲它們創建一些編碼來操縱輸入來處理額外的功能。例如超鏈接主體可以被處理爲a-body- [編碼字符串]。 我還不清楚的是,我會如何告訴分類器對某些輸入特徵加以不同的權重。 任何進一步的指導,將不勝感激。 –

+0

最後它是一個向量中的數字。是的,這是利用標記器到達那裏的一種方法。詢問[email protected],這是一個很好的問題,原作者可以告訴你更多。 –

相關問題