2017-03-17 65 views
0

我想從使用Jsoup和HtmlUnit的網站如http://www3.mangafreak.net/Manga/One_Piece刮取HTML。像這樣的網站,問題是首先它給刮幾秒後重新加載頁面的網站的HTML

狀態代碼:503服務暫時無法使用

,然後幾秒鐘後,重新加載與

狀態代碼的頁面:200 OK

+0

添加超時? –

+0

@EduardoDennis狀態碼超時:503是244ms,狀態碼超時時間是:200是754ms –

+0

所以在你的代碼中你不能在運行你的代碼之前增加一秒超時? –

回答

1

試試這個(僅限HtmlUnit)

WebClient webClient = new WebClient(); 
    webClient.getOptions().setThrowExceptionOnFailingStatusCode(false); 

    HtmlPage page = (HtmlPage) webClient.getPage("http://www3.mangafreak.net/Manga/One_Piece"); 
    System.out.println(page.asXml()); 

    WebWindow window = page.getEnclosingWindow(); 
    window.getJobManager().waitForJobsStartingBefore(5000); 

    page = (HtmlPage) window.getEnclosedPage(); 
    System.out.println(page.asXml()); 

不,你有頁面,你可以使用HtmlUnit API獲得DOM樹的樂趣或點擊某些東西....

+0

這就是我要找的。 –