2012-08-13 73 views
0

我注意到像tika這樣的解析插件從內容中提取出鏈接,但在方法getParse/2中傳遞的對象WebPage已經有兩個數組包含outlinks和inlinks。Nutch 2解析和鏈接

getParse中的提取和提取後的區別是什麼?

謝謝。

回答

0

網頁對象是從nutch數據庫中的信息創建的,在我的情況下是hsql。

在解析過程之後(在方法getParse返回之後)填充網頁字段outlinks(和其他一些)。