使用Selen解析頁面（部分由JavaScript生成）

我遇到了一個問題：我想解析一個頁面（例如this one）以收集關於所提供的應用程序的信息並將這些信息保存到數據庫中。使用Selen解析頁面（部分由JavaScript生成）

此外，我使用crawler4j訪問每個（可用）頁面。但是，正如我所看到的那樣，問題是，crawler4j需要在源代碼中遵循的鏈接。

但是在這種情況下，hrefs是由一些JavaScript代碼生成的，因此crawler4j不會獲得訪問/尋找頁面的新鏈接。

所以我的想法是使用Selenium，這樣我就可以像在Chrome或Firefox這樣的真正瀏覽器中檢查多個元素（我對此很新）。

但是，老實說，我不知道如何獲得「生成」HTML代替源代碼。

任何人都可以幫助我嗎？

2014-08-28 Hisushi

要檢查元素，您不需要Selenium IDE，只需使用Firefox和Firebug擴展。另外，通過添加開發人員工具，您可以查看頁面的源代碼以及生成的源代碼（主要針對PHP）。

Crawler4J不能像這樣處理JavaScript。最好留給另一個更高級的抓取庫。在這裏看到這個迴應：

2014-09-15 21:01:35

回答