stormcrawler

0熱度

1回答

如何調試風暴爬行？我的意思是你寫了一些模塊，你想檢查它。你可以編寫單元測試，但你想在系統上檢查它（可能是本地系統），你怎麼做？我想Julien會正確回答這個問題。

0熱度

3回答

我正在努力獲取最新版本的ES（5x）與Storm-crawler一起使用。我做了什麼被提到here，我克隆了回購，mvn乾淨安裝構建，然後我輸入了所有提到的的mvn命令，它一切正常。我感到困惑的是，當涉及到pom.xml文件，爲version number的事情： <dependency> <groupId>com.digitalpebble.stormcrawler</group

0熱度

1回答

使用Storm Crawler進行爬網

我們正試圖實施Storm Crawler來抓取數據。我們已經能夠從網址中找到子鏈接，但我們希望從這些子鏈接中獲取內容。我一直沒有找到能夠指導我如何得到它的很多資源？任何有用的鏈接/網站在這方面將是有益的。謝謝。

0熱度

1回答

使用Tika進行遞歸爬行的Storm Crawler配置

我想將tika解析器包含到我的拓撲中。我已經在配置中將jsoup.treat.non.html.as.error設置爲false，並且我已經按照storm crawler文檔中的描述設置了tika拓撲。是爬網拓撲結構的設置如下： builder.setSpout("spout", new MemorySpout(testURLs)); builder.setBolt("partitioner

0熱度

1回答

StormCrawler AJAX /動態內容解析

我想知道當前版本的stormcrawler支持AJAX/Dynamic內容解析並將其存儲在elasticsearch中。我知道有正在處理一個增強，這裏是鏈接：https://github.com/DigitalPebble/storm-crawler/issues/144 感謝您的幫助感謝拉吉

0熱度

1回答

ES索引名稱和Stormcrawler

我一直在使用Stormcrawler幾天，現在已經習以爲常。我一直在關注guide的ES索引。如何更改Stormcrawler發送數據的ES索引的名稱？我一直在玩的ES_IndexInit.sh腳本，但似乎不管我做什麼，它抓取數據發送到指數指數。它很好，開始做一些測試，但我現在想創建自己的索引和映射。

2熱度

1回答

Storm Crawler-抓取需要身份驗證的網站

我想通過Storm Crawler在Intranet中抓取需要授權的網站（我已經擁有憑據）。是否可以通過簡單地修改爬蟲配置來實現該目標，或者是否應該更改源代碼中的類，如果是這樣，哪些類？

0熱度

1回答

爲warc螺栓設置一個新的流

我試圖設置一個新的流來連接Tika螺栓到warc螺栓。 import com.digitalpebble.stormcrawler.tika.ParserBolt; import com.digitalpebble.stormcrawler.warc.WARCHdfsBolt; builder.setBolt("tika", new ParserBolt(), numWorkers)

0熱度

1回答

如何使用Postgres設置風暴爬行器？

我想用postgres sql數據庫設置stormcrawler作爲後端。但是沒有關於需要存在哪些表才能啓動風暴爬行器的文檔。我需要哪些表格以及它們具有哪些列？或者有什麼方法可以自動創建所需的表格？另外如何在此模式下啓動爬蟲？因爲我無法像發送示例爬網拓撲一樣發送種子URL。

0熱度

2回答

調整Storm-Crawler以充分利用可用資源

我有一個完全專用於基於Storm-Crawler的履帶的節點。我有20個雙核CPU，130 Gb的RAM和10Gb/s以太網連接。我將我的拓撲縮小爲：CollapsingSpout - > URLPartitionerBolt - > FetcherBolt。噴口正在從Elasticsearch索引（大約50 M記錄）讀取。 Elasticsearch配置有30 GB RAM和2個碎片。我使用