2013-03-20 66 views
0
找到的顏色,單元尺寸很好的策略

假設我們有一個像這樣的字符串:什麼是使用OpenNLP

4 pallets of books with a weight of 437 kg. The pallets measure 80 x 120 x 120 cm each and are protected with red shrinkwrap. 

什麼是提取這樣的(尤其是顏色,重量和大小)信息的最佳途徑使用OpenNLP ...思考一些自定義的語料庫和自己的培訓..但我不知道哪種方法是最好的開始。

<pallet amount>4</pallet amount> pallets of <product>books</product> with a weight of <weight>437</weight> <weightUnit>kg</weightUnit>. The pallets measure <height>80</height> x <width> 120 </width> x <length>120 </length> <measurementUnit>cm</measurementUnit> each and are protected with <color>red</color> shrinkwrap. 

回答

1

你只列出了一種方法(使用OpenNLP進行定製培訓),所以我不知道你認爲你的其他選擇是什麼。這種方法幾乎肯定是你最好的方法,除非你正在搜索的短語是(a)常規和(b)其他短語不同,在這種情況下,你可以使用正則表達式。

有各種各樣的包可以讓你訓練和標記:OpenNLP是一個,斯坦福大學NE是另一個。他們使用不同的訓練方法,這會影響你的結果。但是一旦你有了你的訓練數據,你就可以用不同的引擎進行試驗,看看它是如何做到的。

+0

你說得對。在此期間,我評估了幾個選項。包括你的名字。我現在針對不同的功能使用不同的方法。爲了實現這一點,我編寫了一個抽象層,使得訪問不同的技術變得更加容易。 – Jabb 2013-11-16 07:29:11