2013-03-22 103 views
0

我使用硒來收集Web門戶上的數據。這裏的問題是數據是XML格式,但URL擴展名不是.xml,因此它顯示爲.aspx,因爲它是一個點淨website.Now使用硒我可以用driver.getPageSource()使用硒保存頁面內容

獲得頁面的源代碼,但它給我的格式HTML.Separating的XML這裏使用HTML是一個真正的痛苦,我已經嘗試了許多選項,如JSoup,但它似乎有太多的解析要完成。

是否有任何其他方式來使硒操縱瀏覽器。我可以看到,文件保存爲我提供了一個選項來保存網頁的XML格式。如何在硒中做到這一點?是否有任何其他的API可以幫助我在這裏。

編輯:我的瀏覽器是Internet Explorer

回答

1

你試過這樣嗎?

String pageSource=driver.findElement(By.tagName("body")).getText(); 

看到這個pageSource內容如果只給XML的內容,你可以把它寫使用文件操作文件。

+0

它沒有工作。沒有內容顯示在字符串上。感謝您的輸入,儘管嘗試與其他元素,並回來。 – Madusudanan 2013-03-22 14:16:39

+0

問題是什麼?如果這是html頁面它將沒有html標籤的那個頁面的內容。你可以在這裏發佈你的網址嗎? – Santoshsarma 2013-03-22 14:38:20

+0

我不知道是什麼問題,沒有內容獲取存儲在字符串中。不過有一些限制,我不能在這裏發佈URL。 – Madusudanan 2013-03-25 05:32:52