獲取頁面內容的格式，因爲它是在nutch

in nutch，我正在尋找一種方法來獲取頁面內容的格式，因爲它（線，新行和段落）。獲取頁面內容的格式，因爲它是在nutch

即將到來的代碼並沒有幫助，因爲它刪除了頁面的所有格式。

Parse parse = parseResult.get(content.getUrl());  
parse.getText()

即使

BufferedReader br = new BufferedReader(new InputStreamReader(new 
ByteArrayInputStream(content.getContent()))); 
while (br.readLine() != null) 
LOG.info("After br: " +br.readLine());

不是解決方案，因爲它返回格式化的內容，但與HTML標籤。

我真的希望它是原始格式，以便能夠將它發送到將提取所需內容的方法。

謝謝

來源

2012-01-30 Haya aziz

沒有直接的方法來做到這一點。

根據您的需要研究和修改src\java\org\apache\nutch\segment\ContentAsTextInputFormat.java。

來源

2012-04-03 15:32:17

獲取頁面內容的格式，因爲它是在nutch

回答

相關問題