樸素貝葉斯分類器在Mahout中的適用性，以分類網站

我目前正在研究需要數據庫分類網站（例如cnn.com =新聞）的項目。我們只需要廣泛的分類 - 我們不需要每個單獨分類的URL。我們正在和這些數據庫的通常供應商進行交流，但是我們收回的大多數報價都很昂貴，而且往往會帶來煩人的需求 - 比如不得不使用他們的SDK來查詢數據庫。樸素貝葉斯分類器在Mahout中的適用性，以分類網站

與此同時，我也一直在探索自己建立這樣一個數據庫的可能性。我意識到這不是一個5分鐘的工作，所以我正在做大量的研究。

從閱讀關於這個主題的各種論文看來，似乎樸素貝葉斯分類器通常是這樣做的標準方法。然而，許多論文都提出了改進其網絡分類準確性的增強措施 - 通常通過使用其他上下文信息，例如超鏈接，標題標籤，多詞短語，URL，詞頻等。

我一直在用Mahout的Naive Bayes分類器對20個新聞組測試數據集進行試驗，我可以看到它適用於網站分類，但我擔心它的準確性。

是否有人知道擴展Mahout中的貝葉斯分類器以考慮其他屬性的可行性？任何指針從哪裏開始將不勝感激。

或者，如果我吠叫完全錯誤的樹，請讓我知道！

來源

2011-11-02 Sam Crawford

您可以根據自己的喜好控制輸入。最後，輸入只是一個特徵向量。特徵向量的特徵可以是單詞或雙格 - 但它們也可以是任何你想要的。所以，是的，您可以根據需要修改輸入來注入新功能。

如何最好地編織這些特徵完全是另一個話題 - 沒有最好的方法將它們轉換爲數字。 Mahout in Action涵蓋了這個相當好的FWIW。

來源

2011-11-02 16:49:12

謝謝，我看到之前提到的那本書，我可以試試看。如果我正確理解你的回答，你說我可以通過爲它們創建一些編碼來操縱輸入來處理額外的功能。例如超鏈接主體可以被處理爲a-body- [編碼字符串]。我還不清楚的是，我會如何告訴分類器對某些輸入特徵加以不同的權重。任何進一步的指導，將不勝感激。 –

最後它是一個向量中的數字。是的，這是利用標記器到達那裏的一種方法。詢問[email protected]，這是一個很好的問題，原作者可以告訴你更多。 –

樸素貝葉斯分類器在Mahout中的適用性，以分類網站

回答

相關問題