2016-11-07 95 views
0

我已經安裝了drupal 7和apache solr搜索模塊,並使用Apache Solr(solr版本:4.10.4)進行了配置。內容已經從drupal索引到apache solr和搜索也工作正常。我需要配置Nutch(Apache Nutch版本:1.12)web爬蟲到apache solr和drupal 7並從特定的URL中獲取詳細信息(for例如:http://www.w3schools.com),並需要在drupal中搜索內容。我的問題是如何配置所有三個solr nutch和drupal 7.可以有人提出解決方案嗎?關於用apache Solr和apache Nutch配置Drupal 7

+1

Hi @Ramesh!我不認爲你需要整合Nutch,因爲它是一個爬蟲,它不需要從你的Drupal 7內部獲得信息,比如Apache Solr。唯一需要Nutch的東西是能夠抓取您的網站,因此它需要訪問,並可能是一個網站地圖,但不是一個集成。對? –

+0

感謝您的寶貴答案。正如你所說的是正確的,我已經通過複製apache solr搜索模塊中的schema.xml,solrconfig.xml和protwords.txt文件來配置Drupal和apache solr,它可以在索引和搜索時正常工作。內容被編入索引到核心。現在apache nutch有抓取的數據。這將被移動到apache solr核心。爲此,我們需要像在nutch中那樣更改apache solr schema.xml文件。如果我移動這個nutch,並且apache solr可以很好地將內容索引到solr Core。 – Ramesh

+0

我需要的是,爬網的內容(nutch內容)也被索引,並且網站的內容(drupal 7)也要在apache solr的相同核心中編入索引。爲此,您可以採取哪些措施來幫助我? – Ramesh

回答

0

好的...這是我的醜陋解決方案,可能適合你在做什麼。

您可以在節點(或頁面)中使用php字段(帶有Display Suite的自定義字段),該字段基本上用CURL讀取整個頁面,然後在那裏打印內容。這個字段應該只在你的節點的顯示器上顯示,看不到任何人(除了Apache Solr)。

最後在Solr配置(老實說我不記得它是如何工作的),你可以選擇要索引頁面的哪個顯示,或者要索引的字段,這將是你的整個頁面。

如果所有這些工作,你不需要整合Nutch與Solr和Drupal。

祝你好運:)

PD:如果你有疑問就問。

+0

對不起,你錯誤地理解了。在我的網站中,我有指向html頁面的鏈接(表單).html頁面有一些帶有超鏈接的文件。我需要那些文件的詳細信息,如超鏈接等...因爲我可以只使用nutch抓取數據,並可以與solr集成。我的問題是我需要索引我從nutch爬行的數據,我需要將可用於drupal的內容編入索引到apache solr。 – Ramesh

+0

,因爲我們需要在drupal7中合併apache nutch和模塊(apache solr search)中的schema.xml文件。你可以幫我在這 – Ramesh

+0

我希望我可以@Ramesh,但它超出了我的知識... –

0

我在這2分錢:看起來像你想從你的Drupal站點(你的節點)和外部內容託管在你的網站上的內容,但不是作爲Drupal內容嗎?如果是這種情況,那麼你不需要在Nutch和Drupal之間進行任何整合,只需要在同一個Solr核心/集合中索引所有內容。當然你需要確保Solr模式是兼容的(Nutch有自己的元數據不同於Drupal節點)。另外,如果您使用獨立的核心/集合進行索引,則可以使用參數shards將查詢範圍擴展到多個核心,並且仍然只能得到一個結果集,但採用這種方法時,需要保持並注意結果的相關性文檔順序),同時也要留意Drupal Solr模塊用來顯示結果的字段,所以最終你仍然需要在一定程度上使兩個核心的模式兼容。

+0

感謝Jorge爲您提供寶貴的答案。我需要將drupal內容和nutch抓取的內容編入索引中的同一個核心。你能否提供一些想法來將schema.xml表單drupal模塊和nutch集成到solr schema.xml中 – Ramesh