2012-01-17 123 views
5

是否有一個比較網頁(HTML,dom相似度)相似度的庫(用於java)?Java。比較網頁結構(dom)相似性。

在我的應用程序中,我想分類鏈接的網站。 例如: group 1: Product detail page group 2: Category page(適用於網上購物網站等)。

對於這樣的分類,html結構(dom)相似性是我認爲的最佳方式。請幫助這一點。

+0

它似乎太模糊和具體,因爲它有一個這樣的庫(「相似性」的定義是歧義的主要來源)。 – Viruzzo 2012-01-17 09:23:43

+0

對於我的應用程序來說,「a libray」或「libray的函數」或「簡單的java應用程序」就足夠了。 – cuneytykaya 2012-01-17 09:27:20

+0

如果你需要幫助設計這樣一個應用程序,你需要發佈更多的細節,並解釋你有什麼嘗試/什麼不工作。再次,不要指望已有的東西。 – Viruzzo 2012-01-17 09:32:09

回答

0

不完全是你要求的,但如果HTMl是XML有效的,你可以使用XMLUnit,它是very simple來比較它的相似性。