2014-08-28 47 views
0

我遇到了一個問題:我想解析一個頁面(例如this one)以收集關於所提供的應用程序的信息並將這些信息保存到數據庫中。使用Selen解析頁面(部分由JavaScript生成)

此外,我使用crawler4j訪問每個(可用)頁面。但是,正如我所看到的那樣,問題是,crawler4j需要在源代碼中遵循的鏈接。

但是在這種情況下,hrefs是由一些JavaScript代碼生成的,因此crawler4j不會獲得訪問/尋找頁面的新鏈接。

所以我的想法是使用Selenium,這樣我就可以像在Chrome或Firefox這樣的真正瀏覽器中檢查多個元素(我對此很新)。

但是,老實說,我不知道如何獲得「生成」HTML代替源代碼。

任何人都可以幫助我嗎?

回答

0

要檢查元素,您不需要Selenium IDE,只需使用Firefox和Firebug擴展。另外,通過添加開發人員工具,您可以查看頁面的源代碼以及生成的源代碼(主要針對PHP)。

Crawler4J不能像這樣處理JavaScript。最好留給另一個更高級的抓取庫。在這裏看到這個迴應:

Web Crawling (Ajax/JavaScript enabled pages) using java