查找HTML部分文檔的內容

這不是一個真正的編程問題，更多的算法問題。查找HTML部分文檔的內容

問題：查找HTML頁面的「內容」部分。

「內容」指的是包含人類看到的頁面內容的dom，沒有噪音，只是「頁面實際內容」。我知道問題沒有很好的定義，但讓我們繼續... 例如在博客網站中，這通常很容易，當瀏覽到特定的帖子時，您通常會在頁面的頂部有一些工具欄，也許有些導航元素在LHS上，然後你有包含內容的div。試圖從HTML中弄清楚這一點可能會很棘手。然而幸運的是，大多數博客都有RSS源，在這個特定帖子的Feed中，您會發現<說明>部分（或<內容：編碼>），這正是您想要的。因此，爲了優化內容的定義，這是包含有趣部分的實際內容，刪除所有廣告，導航元素等。因此，從博客中查找內容相對容易，假設他們擁有RSS。其他RSS支持網站也一樣。

新聞網站呢？在很多情況下，新聞網站都有RSS，但並非總是如此。如何在新聞網站上找到內容？更一般的網站呢？許多網頁（當然不是全部）都有內容部分和其他部分。你能想出一個好的算法來找到那些「有趣」的部分，而不是那麼有趣？也許從那些不變的部分改變了？

希望我已經說清楚了......謝謝！

來源

2009-08-04 Ran

對於網絡上的大多數網頁，您很好地發現任何「有趣的部分」 – 2009-08-04 09:12:17

這是一個難以回答的問題。如果很容易從噪音中識別「有趣的內容」，那麼每個人都會使用「噪音」過濾器，就像Adblock用於阻止廣告一樣。也就是說，通常，用戶看到的內容（基本上剝離了標記和腳本邏輯的html文件的全部內容）可能包含「信息」，並且可以使用htmlToText轉換器提取。來自www.htmlparser.org的StringBean類可以用來做到這一點（java）。 – hashable 2009-08-28 00:27:10

我還沒有這樣做，但這將是我的一般方法。

正如你指出，在可見的內容部分的結構的缺乏（即它沒有標記，如header，navigation，ads）的HTML意味着它是很難的家在頁面的重要組成部分。我的方法是首先刪除你明確認爲不重要的獨特元素。排除的一種可能的列表可以是：

meta元素如!doctype，head（取title作爲單獨的數據片）
動態元素如object，embed，applet，script
圖像（取決於是否要保留它們），img
表單元素，即form，input，textarea，label，legend，select，option

第二遍可以再啓動排除經常出現的div或ul ID /類名，並在他們的所有標籤，如：

header，footer，meta
nav，navigation，topnav，sidebar
ad，ads，adu（通常用於廣告和其他名稱）

這將有望從頁面中移除裝飾的顯著量。下一個挑戰是嘗試從剩下的內容中確定主要內容，並且我建議最初假定網站作者正確使用語義HTML，所以主要使用h1,h2頭標記和段落標記。

爲了識別內容，我會尋找任何標題標籤，然後是段落標籤。（對於您的主要內容，這可能是h2; h1標記經常（並且可以錯誤地）用於顯示網站名稱或徽標，但希望通過排除頁面的標題部分來刪除此標記。）每個後續段落都應該將其添加到當前內容中，直到達到中斷爲止，這可能是div或td元素的結尾，也可能是您開始的同一級別的標題元素。

由於您可能在頁面上收集了幾組內容（可能是主要內容以及作者的簡介），因此您需要測試並完善一個決策步驟，該步驟選擇最多可能的人選。這通常是最大的，無論在長度和使用的段落元素數量方面。當您收集更多內容示例時，您可以在算法中添加支持度量;這可能是你注意到許多頁面使用div id="content"或id="maincontent"。保留您檢測到的輔助內容項也很有用，因此，如果某些網站具有構建內容的好奇方式，那麼一旦您將捕手添加到您的算法中，就可以針對此操作重新運行它網站的內容。

來源

2009-08-11 08:41:46

一個結構良好的網站將有相同的代碼重複使用相同的代碼，例如，導航，標題等。

如果您有要分析的目標頁面，請嘗試瀏覽相同域/子域下的其他幾個頁面，找到所有頁面通用的元素。那些是你想要擺脫的噪音。

然後你可以看看剩下的東西，看看是否有噪音溜進來。當你收集到合理數量的這些數據時，試着在它們中找到一些模式。優化你的邏輯並重復。

來源

2009-08-19 17:57:00

查找HTML部分文檔的內容

回答

相關問題