1
我已經創建了一個簡單的使用BFS的網絡爬蟲,給定了一些種子URL和幾個關鍵字爬取網絡搜索這些關鍵字的內容。我相信下一步是索引,搜索引擎可以查詢它,我想知道做這件事的最好方法是什麼?我最擔心的一些問題是:基本的搜索引擎 - 抓取下一步是什麼?
我應該將索引存儲在文件或數據庫中嗎?
我是否存儲找到的頁面以及此頁面中的所有傳出地址或僅存的未訪問地址?
我已經創建了一個簡單的使用BFS的網絡爬蟲,給定了一些種子URL和幾個關鍵字爬取網絡搜索這些關鍵字的內容。我相信下一步是索引,搜索引擎可以查詢它,我想知道做這件事的最好方法是什麼?我最擔心的一些問題是:基本的搜索引擎 - 抓取下一步是什麼?
我應該將索引存儲在文件或數據庫中嗎?
我是否存儲找到的頁面以及此頁面中的所有傳出地址或僅存的未訪問地址?
我會建議使用Lucene。這是索引和搜索性能的標準。 Check it out here。默認情況下,Lucene將索引信息存儲到磁盤。你也可以store it in a database as well。