0
A
回答
1
從Javascript的頁面獲取此信息可能是一項艱鉅的工作。你的程序必須解釋整個頁面,並理解JS在做什麼。並非所有的網絡蜘蛛都這樣做。
大多數現代的JS庫(jQuery等)主要操縱CSS元素和HTML元素的屬性。因此,首先必須從HTML源代碼和JS生成「平面」HTML,然後在平面HTML代碼上運行傳統的Web Spider。 (例如,FF webdeveloper插件允許查看頁面的原始源代碼和當所有JS完成時生成的頁面代碼)。
+0
同意。在許多情況下,正確執行此操作的唯一方法就是通過「無頭瀏覽器」呈現頁面。 – Joel 2010-12-14 09:22:42
1
你在找什麼叫做Web Spider engine
。有很多開源的web蜘蛛引擎可用。檢查http://j-spider.sourceforge.net/例如
相關問題
- 1. Java的緩衝讀者
- 2. Java Web開發初學者
- 3. 讀者作者併發問題Java
- 4. Java的緩衝讀者 - 跳轉到行
- 5. 緩衝讀者不讀我的整個文件的java
- 6. 是HTML5的Web工作者的頁面或跨頁
- 7. Java端點 - perl消費者web服務
- 8. 一個web頁面級的Java servlet
- 9. JOptionPane和讀取整數 - 初學者Java
- 10. 從Java的網頁閱讀文本
- 11. 完整的初學者的Java Web應用教程
- 12. 投射到讀者或創建一個新的讀者
- 13. Python的CSV讀者怪怪
- 14. ExtJS的自定義讀者
- 15. MySQL的讀者使用C#
- 16. RSS的組織讀者
- 17. 幫助java web應用程序的初學者
- 18. Java中的Web服務,初學者問題
- 19. 在Java Web中讀取文件開始
- 20. Java的讀者clasloader /後出口不工作
- 21. 與C#相比,Java的final類似於const或者只讀
- 22. Java:可能的泛化:流,讀者,字符緩衝區,stringbuilder,...?
- 23. Java中的流和讀者之間有什麼區別?
- 24. 如何從txt文件與緩衝讀者的Java
- 25. Excel讀者ASP.NET
- 26. Java的消費者/生產者
- 27. java中的多生產者消費者
- 28. 讀者不讀數據
- 29. 作者頁面獲取作者的帖子和頁面
- 30. php的聆聽者頁面
您是否需要抓取網頁(數千/數百萬個網站)或抓取少數網站? – Joel 2010-12-14 09:23:58
感謝每一個我已閱讀的第一頁的鏈接,但我想想獲得下一頁的鏈接,因爲它具有相同的URL唯一不同的是包含 – asas 2010-12-14 09:54:29