stormcrawler

    0熱度

    1回答

    如何調試風暴爬行? 我的意思是你寫了一些模塊,你想檢查它。你可以編寫單元測試,但你想在系統上檢查它(可能是本地系統),你怎麼做? 我想Julien會正確回答這個問題。

    0熱度

    3回答

    我正在努力獲取最新版本的ES(5x)與Storm-crawler一起使用。 我做了什麼被提到here,我克隆了回購,mvn乾淨安裝構建,然後我輸入了所有提到的的mvn命令,它一切正常。 我感到困惑的是,當涉及到pom.xml文件,爲version number的事情: <dependency> <groupId>com.digitalpebble.stormcrawler</group

    0熱度

    1回答

    我們正試圖實施Storm Crawler來抓取數據。我們已經能夠從網址中找到子鏈接,但我們希望從這些子鏈接中獲取內容。我一直沒有找到能夠指導我如何得到它的很多資源?任何有用的鏈接/網站在這方面將是有益的。謝謝。

    0熱度

    1回答

    我想將tika解析器包含到我的拓撲中。我已經在配置中將jsoup.treat.non.html.as.error設置爲false,並且我已經按照storm crawler文檔中的描述設置了tika拓撲。是 爬網拓撲結構的設置如下: builder.setSpout("spout", new MemorySpout(testURLs)); builder.setBolt("partitioner

    0熱度

    1回答

    我想知道當前版本的stormcrawler支持AJAX/Dynamic內容解析並將其存儲在elasticsearch中。 我知道有正在處理一個增強,這裏是鏈接:https://github.com/DigitalPebble/storm-crawler/issues/144 感謝您的幫助 感謝 拉吉

    0熱度

    1回答

    我一直在使用Stormcrawler幾天,現在已經習以爲常。我一直在關注guide的ES索引。 如何更改Stormcrawler發送數據的ES索引的名稱? 我一直在玩的ES_IndexInit.sh腳本,但似乎不管我做什麼,它抓取數據發送到指數指數。它很好,開始做一些測試,但我現在想創建自己的索引和映射。

    2熱度

    1回答

    我想通過Storm Crawler在Intranet中抓取需要授權的網站(我已經擁有憑據)。是否可以通過簡單地修改爬蟲配置來實現該目標,或者是否應該更改源代碼中的類,如果是這樣,哪些類?

    0熱度

    1回答

    我試圖設置一個新的流來連接Tika螺栓到warc螺栓。 import com.digitalpebble.stormcrawler.tika.ParserBolt; import com.digitalpebble.stormcrawler.warc.WARCHdfsBolt; builder.setBolt("tika", new ParserBolt(), numWorkers)

    0熱度

    1回答

    我想用postgres sql數據庫設置stormcrawler作爲後端。但是沒有關於需要存在哪些表才能啓動風暴爬行器的文檔。 我需要哪些表格以及它們具有哪些列?或者有什麼方法可以自動創建所需的表格? 另外如何在此模式下啓動爬蟲?因爲我無法像發送示例爬網拓撲一樣發送種子URL。

    0熱度

    2回答

    我有一個完全專用於基於Storm-Crawler的履帶的節點。我有20個雙核CPU,130 Gb的RAM和10Gb/s以太網連接。 我將我的拓撲縮小爲:CollapsingSpout - > URLPartitionerBolt - > FetcherBolt。噴口正在從Elasticsearch索引(大約50 M記錄)讀取。 Elasticsearch配置有30 GB RAM和2個碎片。 我使用