2010-09-12 59 views
1

我想開始將大量原始HTML頁面解析爲語義數據結構。用於網站解析的庫/工具

只是對這種任務的各種可用工具的社區意見感興趣,特別是各種有用的任何語言的庫。

到目前爲止,計劃使用Hadoop來管理大量的處理,但對備選方案感到好奇。

+0

你什麼意思做'解析HTML轉換成語義數據結構? – bmargulies 2010-09-12 00:25:37

+0

編寫讀取特定HTML頁面的程序,並選取特定元素存儲在某些本地數據結構中。 – Kevin 2010-09-12 19:04:34

回答

0

首先,您需要下載頁面源代碼,然後創建一個DOM樹。如果您在C#中編寫代碼,您可以使用以下工具創建您的DOM樹。

1)http://htmlagilitypack.codeplex.com/
2)http://www.majestic12.co.uk/projects/html_parser.php

第一個是易於使用,但第二個是速度更快,內存友好,我建議你,如果你想創建一個強大的應用程序中使用第二個

那麼你可以使用提取網頁內容有用:

http://www.chrisspen.com/blog/how-to-extract-a-webpages-main-article-content.html

和許多其他文章你可以找到谷歌搜索來提取網頁內容(提取網頁主要內容)

希望它可以幫助