刮幾秒後重新加載頁面的網站的HTML

我想從使用Jsoup和HtmlUnit的網站如http://www3.mangafreak.net/Manga/One_Piece刮取HTML。像這樣的網站，問題是首先它給刮幾秒後重新加載頁面的網站的HTML

狀態代碼：503服務暫時無法使用

，然後幾秒鐘後，重新加載與

狀態代碼的頁面：200 OK

來源

2017-03-17 Tony Stark

添加超時？ –

@EduardoDennis狀態碼超時：503是244ms，狀態碼超時時間是：200是754ms –

所以在你的代碼中你不能在運行你的代碼之前增加一秒超時？ –

試試這個（僅限HtmlUnit）

WebClient webClient = new WebClient(); 
    webClient.getOptions().setThrowExceptionOnFailingStatusCode(false); 

    HtmlPage page = (HtmlPage) webClient.getPage("http://www3.mangafreak.net/Manga/One_Piece"); 
    System.out.println(page.asXml()); 

    WebWindow window = page.getEnclosingWindow(); 
    window.getJobManager().waitForJobsStartingBefore(5000); 

    page = (HtmlPage) window.getEnclosedPage(); 
    System.out.println(page.asXml());

不，你有頁面，你可以使用HtmlUnit API獲得DOM樹的樂趣或點擊某些東西....

來源

2017-03-19 09:05:18 RBRi

這就是我要找的。 –

刮幾秒後重新加載頁面的網站的HTML

回答

相關問題