回答

6

您曾經找到過的Java中最好的爬蟲/索引器組合之一是Nutch,它現在是一個Apache項目(參見Wiki),因此也是開源的。

特點:

  1. 取,分析和並行指數和/歐分佈式
  2. 插件:純文本,HTML,XML,ZIP,OpenDocument格式(OpenOffice.org),微軟辦公軟件(Word ,Excel和PowerPoint),PDF,JavaScript中,RSS,RTF,MP3(ID3標籤)
  3. 本體
  4. 聚類
  5. 的MapReduce
  6. 分佈式文件系統(Hadoop的通過)
  7. 鏈路圖形數據庫
  8. NTLM身份驗證(Windows /交換/等)