0
我注意到像tika這樣的解析插件從內容中提取出鏈接,但在方法getParse/2中傳遞的對象WebPage已經有兩個數組包含outlinks和inlinks。Nutch 2解析和鏈接
getParse中的提取和提取後的區別是什麼?
謝謝。
我注意到像tika這樣的解析插件從內容中提取出鏈接,但在方法getParse/2中傳遞的對象WebPage已經有兩個數組包含outlinks和inlinks。Nutch 2解析和鏈接
getParse中的提取和提取後的區別是什麼?
謝謝。
網頁對象是從nutch數據庫中的信息創建的,在我的情況下是hsql。
在解析過程之後(在方法getParse返回之後)填充網頁字段outlinks(和其他一些)。