dih

    0熱度

    1回答

    我有dih核心。其中,有兩個實體通過完全導入進行增量導入,而另一個則通過增量導入來處理刪除。 我通過全導入使用增量導入,因爲只有增量導入取longer time than full-import。 現在,我正在應用cron作業,以便進口自動化。在這種情況下,是否可以同時運行兩個導入。這樣一方面負責更新,另一方負責刪除。 是否可以同時運行delta-import和full-import?

    0熱度

    1回答

    當我嘗試從ftp服務器獲取文件以使用tikaEntityProcessor提取一些元數據時,我遇到了一些麻煩。 我需要一種方法將某些憑據傳遞給UrlDataSource。 請問任何人,請告訴我該怎麼做? 值的示例: url: ftp://localhost/Oreilly.Mercurial.The.Definitive.Guide.Jun.2009.pdf ftp user: alex ftp

    0熱度

    1回答

    我使用Solr的6.5索引文件從FTP倍數文件轉換成倍數芯(每種類型的文件,如音頻文件,圖片,軟件,視頻和文檔一個核心)。 的情況是,我這樣做是爲了填充,在其前端有一個社交網絡的方法,其中每個用戶可以添加新的標籤或修改其他元數據不受任何限制的應用程序。 所以,當我再次執行數據導入處理程序,以新文件添加到我的應用程序,它抹去previosly被修改爲用戶設置與數據配置默認配置指數。 我的問題:有沒有

    0熱度

    1回答

    我想用DIH將數據從Apache Solr導入到Datastax Solr。我能夠獲取文檔,但是當二氫嘗試創建文件,我得到的日期字段,提示以下錯誤: org.apache.solr.common.SolrException: Invalid Date String:'Thu Jun 08 16:23:00 PDT 2017' at org.apache.solr.schema.DateField

    1熱度

    2回答

    我希望能夠使用Solr從XML文件解析的信息中運行搜索。 這些XML文件不是Solr的文檔格式,因此我必須解析它們並獲取我需要的字段。 我熟悉Java編程,並想知道SolrJ是否比使用數據導入處理程序更簡單。我正在考慮運行每個我擁有的XML文件,並解析每個我需要的字段。一種方法比另一種方法有什麼缺點?我想象,因爲我熟悉Java,這可能更容易解析XML的方式? 我可能需要多個條件和正則表達式。如果有

    0熱度

    2回答

    我使用Solr的索引使用SQL DIH存儲在DBMS的數據集。一個在表中使用N對N的關係。只是爲了簡單起見,(我的應用程序比這個複雜得多)這裏是應用程序的一個例子:一個人有一個名字和它相關聯的0到n的角色(一個角色由ROLE_NAME字符串描述)。 Table Person: - id: int - Name: string Table roles - id: int - role_n

    0熱度

    1回答

    我正在從數據庫索引數據。我使用增量導入來獲取最近更新的數據。但是,我發現它將獲取整個數據兩次並處理一次,儘管這些更改僅適用於一行。 我的config.xml其中deltaquery給出: <dataConfig> <dataSource type="JdbcDataSource" driver="com.github.cassandra.jdbc.CassandraDriver" url="jd

    0熱度

    1回答

    Got Solr 6.4.2在SolrCloud上運行,以及對索引性能的一些懷疑。 我使用MSSql作爲MSSQL的數據源和最新的JDBC驅動程序。 當Solr的開始作爲獨立的我DataImport運行在31250個文檔/ s的 當Solr的啓動爲SolrCloud(2個副本)我DataImport運行在10000個文檔/ s的 是否有這對有影響的任何配置參數這個?

    0熱度

    1回答

    我是SOLR的新手,我試圖使用SOLR爲索引oracle數據庫查詢結果編制索引。我也編寫了config.xml並在schema.xml中添加了索引。 我在我的config.xml文件中有多個查詢作爲子實體(具有child = true)。許多查詢都返回多行。比如我有一個實體 <entity name="example_subentity" child="true" query="SELECT A,

    0熱度

    1回答

    我擁有大約2100000行的數據。完全進口所花費的時間約爲2分鐘。對於表中的任何更新,我使用增量導入來索引更新。增量導入需要6分鐘的時間。 考慮到效率方面,最好進行全面導入而不是增量導入。那麼,三角洲進口的需求是什麼?有沒有更好的方式來使用增量導入來提高效率? 我按照documentation中的步驟操作。 數據-config.xml中 <dataConfig> <dataSource type