0

我試圖提取圖像和一些文本關閉以下站點http://bit.ly/16jFeyA提取完整的HTML源代碼,不偏

Web窗體,C#,Visual Studio中,HtmlAgilityPack

編碼與Web客戶端只,瀏覽器wb.Document.Encoding = "GB2312";效果很好不起作用,不重要。

該網站使用惰性負載,圖像。 WebBrowser正常加載,與圖像的信息,但是當我提取使用任何Web客戶端/ wb.DocumentText,它不會下載「全部信息」一些信息丟失,特別是圖像鏈接等。

反正有這個?我正在嘗試提取圖像和產品信息。

使用wb.DocumentText提取向下滾動以迫使圖像加載(由於延遲加載)後 - http://notepad.cc/share/EjW3tFCffO

WB = web瀏覽器

提前感謝!

回答

2

您需要使用一些知道如何評估和執行客戶端JavaScript的東西,例如無頭瀏覽器。 PhantomJS應該就夠了。

+0

謝謝,將研究,目前找到一個解決方案,是開發擴展獲取我需要的數據和保存圖像。 – CodeGuru 2013-03-11 02:55:10