2010-12-14 39 views
0

我想要檢索的網頁所有鏈接,但該網頁使用JavaScript和每個頁面包含的鏈接的Java Web頁的讀者

號我怎麼能去到下一個頁面,並讀取其包含的Java程序

+0

您是否需要抓取網頁(數千/數百萬個網站)或抓取少數網站? – Joel 2010-12-14 09:23:58

+0

感謝每一個我已閱讀的第一頁的鏈接,但我想想獲得下一頁的鏈接,因爲它具有相同的URL唯一不同的是包含 – asas 2010-12-14 09:54:29

回答

1

從Javascript的頁面獲取此信息可能是一項艱鉅的工作。你的程序必須解釋整個頁面,並理解JS在做什麼。並非所有的網絡蜘蛛都這樣做。

大多數現代的JS庫(jQuery等)主要操縱CSS元素和HTML元素的屬性。因此,首先必須從HTML源代碼和JS生成「平面」HTML,然後在平面HTML代碼上運行傳統的Web Spider。 (例如,FF webdeveloper插件允許查看頁面的原始源代碼和當所有JS完成時生成的頁面代碼)。

+0

同意。在許多情況下,正確執行此操作的唯一方法就是通過「無頭瀏覽器」呈現頁面。 – Joel 2010-12-14 09:22:42

1

你在找什麼叫做Web Spider engine。有很多開源的web蜘蛛引擎可用。檢查http://j-spider.sourceforge.net/例如

+0

它提取動態JS鏈接? – Joel 2010-12-14 09:21:16

+0

@Joel,不確定動態JS鏈接?你能解釋一下嗎? – ukanth 2010-12-16 13:46:13

+0

我得到了OP想用動態生成(JS)鏈接抓取網站的印象... – Joel 2010-12-20 21:06:25