我已經安裝了drupal 7和apache solr搜索模塊,並使用Apache Solr(solr版本:4.10.4)進行了配置。內容已經從drupal索引到apache solr和搜索也工作正常。我需要配置Nutch(Apache Nutch版本:1.12)web爬蟲到apache solr和drupal 7並從特定的URL中獲取詳細信息(for例如:http://www.w3schools.com),並需要在drupal中搜索內容。我的問題是如何配置所有三個solr nutch和drupal 7.可以有人提出解決方案嗎?關於用apache Solr和apache Nutch配置Drupal 7
回答
好的...這是我的醜陋解決方案,可能適合你在做什麼。
您可以在節點(或頁面)中使用php字段(帶有Display Suite的自定義字段),該字段基本上用CURL讀取整個頁面,然後在那裏打印內容。這個字段應該只在你的節點的顯示器上顯示,看不到任何人(除了Apache Solr)。
最後在Solr配置(老實說我不記得它是如何工作的),你可以選擇要索引頁面的哪個顯示,或者要索引的字段,這將是你的整個頁面。
如果所有這些工作,你不需要整合Nutch與Solr和Drupal。
祝你好運:)
PD:如果你有疑問就問。
我在這2分錢:看起來像你想從你的Drupal站點(你的節點)和外部內容託管在你的網站上的內容,但不是作爲Drupal內容嗎?如果是這種情況,那麼你不需要在Nutch和Drupal之間進行任何整合,只需要在同一個Solr核心/集合中索引所有內容。當然你需要確保Solr模式是兼容的(Nutch有自己的元數據不同於Drupal節點)。另外,如果您使用獨立的核心/集合進行索引,則可以使用參數shards
將查詢範圍擴展到多個核心,並且仍然只能得到一個結果集,但採用這種方法時,需要保持並注意結果的相關性文檔順序),同時也要留意Drupal Solr模塊用來顯示結果的字段,所以最終你仍然需要在一定程度上使兩個核心的模式兼容。
感謝Jorge爲您提供寶貴的答案。我需要將drupal內容和nutch抓取的內容編入索引中的同一個核心。你能否提供一些想法來將schema.xml表單drupal模塊和nutch集成到solr schema.xml中 – Ramesh
- 1. Apache Nutch和Solr集成
- 2. Drupal 7 Apache Solr搜索Facets配置覆蓋缺失字段
- 3. Apache Solr實現查看Drupal 7的
- 4. Apache solr搜索結果查看Drupal 7
- 5. Drupal 7 Apache solr搜索模塊
- 6. Drupal + Nutch + Solr
- 7. Apache solr配置與tomcat 6.0
- 8. 將Apache Tika應用於Solr而不是Nutch有什麼好處
- 9. 在Windows 7上配置Apache
- 10. 配置Apache Ant和艾維在Windows 7
- 11. 如何使用apache Solr配置Apache Tika 1.4.1
- 12. 用於PHP和Web2Py的Apache配置
- 13. 使用apache solr設置Conceptnet
- 14. 關於uri的Apache配置問題
- 15. 配置symfony和apache
- 16. 配置Django和Apache
- 17. Windows上的Apache Nutch
- 18. Apache Solr&schema.xml
- 19. Nutch v Solr v Nutch + Solr
- 20. 我該如何使用Apache Spark和Apache Nutch
- 21. 如何在ubuntu 10.10中配置Nutch和solr?
- 22. Windows 7 | Apache反向代理配置
- 23. Apache Solr提交
- 24. 如何在apache tomcat 7中集成apache solr?
- 25. 用tika爲apache solr解析數據
- 26. 用於多個solr內核的nutch配置
- 27. Apache mod_proxy和反向配置。
- 28. Apache配置爲PHP和Django
- 29. 配置Django,Apache和Nginx
- 30. 清漆和配置Apache
Hi @Ramesh!我不認爲你需要整合Nutch,因爲它是一個爬蟲,它不需要從你的Drupal 7內部獲得信息,比如Apache Solr。唯一需要Nutch的東西是能夠抓取您的網站,因此它需要訪問,並可能是一個網站地圖,但不是一個集成。對? –
感謝您的寶貴答案。正如你所說的是正確的,我已經通過複製apache solr搜索模塊中的schema.xml,solrconfig.xml和protwords.txt文件來配置Drupal和apache solr,它可以在索引和搜索時正常工作。內容被編入索引到核心。現在apache nutch有抓取的數據。這將被移動到apache solr核心。爲此,我們需要像在nutch中那樣更改apache solr schema.xml文件。如果我移動這個nutch,並且apache solr可以很好地將內容索引到solr Core。 – Ramesh
我需要的是,爬網的內容(nutch內容)也被索引,並且網站的內容(drupal 7)也要在apache solr的相同核心中編入索引。爲此,您可以採取哪些措施來幫助我? – Ramesh