的Java Web頁的讀者

我想要檢索的網頁所有鏈接，但該網頁使用JavaScript和每個頁面包含的鏈接的Java Web頁的讀者

號我怎麼能去到下一個頁面，並讀取其包含的Java程序

2010-12-14 asas

您是否需要抓取網頁（數千/數百萬個網站）或抓取少數網站？ – Joel 2010-12-14 09:23:58

感謝每一個我已閱讀的第一頁的鏈接，但我想想獲得下一頁的鏈接，因爲它具有相同的URL唯一不同的是包含 – asas 2010-12-14 09:54:29

從Javascript的頁面獲取此信息可能是一項艱鉅的工作。你的程序必須解釋整個頁面，並理解JS在做什麼。並非所有的網絡蜘蛛都這樣做。

大多數現代的JS庫（jQuery等）主要操縱CSS元素和HTML元素的屬性。因此，首先必須從HTML源代碼和JS生成「平面」HTML，然後在平面HTML代碼上運行傳統的Web Spider。（例如，FF webdeveloper插件允許查看頁面的原始源代碼和當所有JS完成時生成的頁面代碼）。

2010-12-14 09:08:34 PeterMmm

同意。在許多情況下，正確執行此操作的唯一方法就是通過「無頭瀏覽器」呈現頁面。 – Joel 2010-12-14 09:22:42

你在找什麼叫做Web Spider engine。有很多開源的web蜘蛛引擎可用。檢查http://j-spider.sourceforge.net/例如

2010-12-14 08:50:40 ukanth

它提取動態JS鏈接？ – Joel 2010-12-14 09:21:16

@Joel，不確定動態JS鏈接？你能解釋一下嗎？ – ukanth 2010-12-16 13:46:13

我得到了OP想用動態生成（JS）鏈接抓取網站的印象... – Joel 2010-12-20 21:06:25

回答