2010-07-28 80 views
1

我正在查看可以區分博客和普通網站的內容。這些是程序需要能夠從網站的html或網站支持的特定功能中識別出來的東西。例如。坪。新聞網站也一樣。博客的分層功能,即博客和普通網站之間的區別

我正在製作一個博客/新聞監視器程序,它將索引網站以自動確定它是博客還是新聞網站,然後在其評論等網站的帖子中監控用戶反饋,博客或新聞性質。

所以我真正的是建議我可以使用或尋找在識別這些網站。

這將是一個用java編寫的桌面應用程序,所以如果你在java中有任何代碼細節將會很棒。

在此先感謝

+0

我改進了這個問題上的標記。我刪除了'java',因爲這與java沒有任何關係。如果您找到可行的解決方案,請執行一些Java研究並針對您遇到的任何問題提交具體的問題。我還添加了html解析和檢測。 – 2010-07-28 20:10:06

回答

1

您可以搜索頁單詞「博客」,因爲這可能會出現。具體而言,您可以在HTML頁面的某些部分查找它,或者排除部分 - 如鏈接。這會給你一個體面的起點。

但是,最終,這是必須手動完成的事情。你應該爲人們構建一個接口,以便在網站提交時指定它是博客還是新聞網站,或者是它的不同功能。然後,您應該創建一個網站和功能的數據庫,並將其標記,以便您或其他管理員可以查看它們並進行更改。一旦你爲一個網站做了這個,你永遠不需要再做一次,所以例如http://*.wordpress.com/就是博客。

某些功能可以自動檢測或獲得很好的檢測機會,但最終需要手動檢查。

+0

感謝您的編輯和建議 – zcourts 2010-07-29 23:11:07

0

尋找一個可發現的RSS或Atom提要,它應該出現在博客或連續更新的新聞網站上。

+0

謝謝,我有rss在腦海中,我會尋找其他人。 – zcourts 2010-07-29 23:11:56