2011-01-07 77 views
4

即時通訊新的網絡爬行。我打算建造一履帶節省RapidShare的鏈接包括URL,其中發現,RapidShare的鏈接搜索引擎...使用Django構建搜索引擎的建議

換句話說,我要建立類似於filestube.com

後一些網站搜索,我發現Scrapy適用於Django。我試圖找到有關Django的Nutch的整合,但一無所獲

我希望你能給我建議建立這類網站...尤其是履帶

回答

7

爲最有名的可插拔的應用程序是Django-Haystack它允許您連接到幾個搜索後端:

  • Solr/Lucene的兼容流行語的Apache基金會項目
  • Whoosh原來的Python搜索庫
  • Xapian另一個很好的語義搜索引擎

草垛允許你使用它看起來像Django自己的查詢集語法直接使用這些搜索引擎(這一切發生有自己的API和方言)的API。

如果刮痧工具後是中庸之道,什麼工具,你使用:BeautifulSoup或鬥志旺盛,你會在你自己,編寫Python代碼,將解析要分析什麼,然後填充您Django模型。
這甚至可以是獨立的python腳本,在commands.py模塊中可用。

如果你有很多要搜索的文件,你可能需要一個索引,它經常重建,並且允許快速搜索而不會碰到django ORM。
使用Solr索引(例如)可以實時創建其他字段,例如基於實際模型字段的虛擬字段(例如:分割作者姓名和姓氏,添加大寫文件標題字段,無論如何)

當然,F你不需要快速的指數,關鍵字升壓或語義分析,你仍然可以做了一對夫婦的Django模型領域的經典全文搜索我:

+0

BeautifulSoup是該死的緩慢和死:) scrappy更好,它使用etree – virhilo 2011-01-07 17:53:54

0

你查過DjangoItem?這是一個實驗性的Scrapy功能,但它的工作已知