2016-12-29 85 views
1

我期待這是非常基本的:HtmlUnit:中國網站編碼

從中文網站下載頁面時,所有中文字符都顯示爲「?」在保存的文件(viw java NIO Files.write)中。

我知道中文網頁被檢索爲UTF-8(page.getPageEncoding()返回「UTF-8」),但是在我保存網頁時出了點問題。

我的代碼如下:

final WebClient webClient = new WebClient(BrowserVersion.FIREFOX_45); 
    webClient.getOptions().setThrowExceptionOnScriptError(false); 
    webClient.getOptions().setTimeout(15000); 
    final HtmlPage page = webClient.getPage(urlNow); 





    pageAsXml = page.asXml(); 

    NioLog.getLogger().debug(page.getPageEncoding()); 





    Files.write(Paths.get(outputPath + File.separator + fileNameTruncated + TXT), pageAsXml.getBytes()); 

回答

1

的答案如下:

  barrayXml = page.asXml().getBytes(Charset.forName("UTF-8")); 



      Files.write(Paths.get(outputPath + File.separator + fileNameTruncated + TXT), barrayXml);