2012-01-30 46 views
0

in nutch,我正在尋找一種方法來獲取頁面內容的格式,因爲它(線,新行和段落)。獲取頁面內容的格式,因爲它是在nutch

即將到來的代碼並沒有幫助,因爲它刪除了頁面的所有格式。

Parse parse = parseResult.get(content.getUrl());  
parse.getText() 

即使

BufferedReader br = new BufferedReader(new InputStreamReader(new 
ByteArrayInputStream(content.getContent()))); 
while (br.readLine() != null) 
LOG.info("After br: " +br.readLine()); 

不是解決方案,因爲它返回格式化的內容,但與HTML標籤。

我真的希望它是原始格式,以便能夠將它發送到將提取所需內容的方法。

謝謝

回答

0

沒有直接的方法來做到這一點。

根據您的需要研究和修改src\java\org\apache\nutch\segment\ContentAsTextInputFormat.java