2010-11-03 68 views
0

我需要找一個包含實際相關網頁文字的標籤。例如,在一個新增的論文網站上,有添加,菜單和橫幅等,我需要能夠解析網頁,假設它是用XHTML來簡化場景,並且只返回包含頁面上實際新聞的標籤。尋找網頁上的主要文字

我想到的方式是比較每個節點中文本的大小,並選取大多數文本的節點。有沒有人有更好的主意?

回答

0

如何通過xhtml標題內容進行標識?

+0

不可能。被解析的頁面是現有的頁面,就像我提到的新聞網站。不符合我們的需求或建議。 – Shahzeb 2010-11-04 23:57:00