我正在使用Nutch抓取某些網站並通過自定義插件(myplugin)的幫助將數據索引到彈性搜索。某些網站的元標記不是索引
我需要從爬網站點存儲在元標記中的信息。因此,爲了實現這一點,我剛剛加入Nutch的-site.xml的屬性如下:
<property>
<name>plugin.includes</name>
<value>protocol-httpclient|myplugin|urlfilter-regex|parse-(tika|html|js|css|metatags)|index-(basic|anchor|metadata)|query-(basic|site|url)|response-(json|xml)|summary-basic|scoring-opic|urlnormalizer-(pass|regex|basic)|indexer-elastic</value>
</property>
<property>
<name>metatags.names</name>
<value>*</value>
</property>
<property>
<name>index.parse.md</name>
<value>keywords,description</value>
</property>
<property>
<name>index.content.md</name>
<value>keywords,description</value>
</property>
它正常工作與一些網站,但網站像this
沒有制定任何幫助將是讚賞。
這是行得通的。 :)節省我的時間。 – Abhishek