起初,我試圖通過蒂卡檢測波斯語: how can I detect farsi web pages by tika? ,但我明白,蒂卡不支持波斯語,我必須在Tika處理波斯語創建語言資料。但我不知道該怎麼做。實際上我無法理解以下鏈接或谷歌其他鏈接的任何內容。請幫幫我。 https://issues.apache.org/jira/browse/TIKA-546 我想知道添加語言輪廓蒂卡的步驟。
我有一個事物數據庫,每個事物都可以有不同語言的多個名稱。這是目前歸一東西有,很多名字模式: things
------
id
...
names
-----
id
thing_id
language
name
我這個索引使用Solr的,我試圖找出非規範化成爲Lucene的模式是最好的方法。這一個工作好: <fields>
<field name="id" type