2013-04-24 89 views
-3

我與美國農業部營養數據庫,它的食物有以下描述的工作:食品信息提取

例如:

Cheese, fontina 
Cheese, cheddar 
Cheese, cottage, lowfat, 2% milkfat 
Cheese, cottage, lowfat, 1% milkfat 
Apples, raw, with skin 
Apples, dried, sulfured, uncooked 
Apples, frozen, unsweetened, heated 
McDONALD'S, BIG MAC (without Big Mac Sauce) 
McDONALD'S, BIG MAC 
Sandwiches and burgers, roast beef sandwich with cheese 

這裏有一個模式,逗號清楚地用於獨立的實體。按照上面的例子,奶酪是切達奶酪,小屋和fontina的父母。

我已經做了一些工作,以便從此源中提取信息。我認爲有:

  • 詞性標註:如果一個字是形容詞或動詞,是不是食物的名稱
  • freqdist /單詞計數的一部分:這是爲了獲得單詞的層次結構中進行食物的描述

但是,當我大規模地運行它時,我會得到不確定的結果。在一些描述中,POS標記失敗,而freqdist/wordcount在同一句子中出現類似frecuency的單詞時沒有用處。

這是我想獲得的結果的一個例子:

輸入數據:

Cheese, fontina 
Cheese, cheddar 
Cheese, cottage, lowfat, 2% milkfat 
Cheese, cottage, lowfat, 1% milkfat 

輸出數據:

Cheese is the parent of fontina, cottage and cheddar. lowfat is a "characteristic" cheese cottage. Cottage, cheddar and fontina are the "principal foods". 

輸入數據:

Sandwiches and burgers, roast beef sandwich with cheese 

輸出數據:

Cheese is a characteristic of roast beef sandwich. The category of the food is sandwiches and burgers and the "principal food" is roast beef sandwich. 

我是一名初學者,所以我想獲得一些關於它的指導。關於自然語言處理的信息很多,如果沒有廣泛的知識,很難確定採取何種途徑。

回答

0

這不是一個真正的NLP問題...

該數據是一棵樹。 將每一行看作樹形圖中的部分路徑。第二個逗號後面的單詞似乎是一片葉子的值。

+0

這不提供問題的答案。要批評或要求作者澄清,在他們的帖子下留下評論 - 你可以隨時評論你自己的帖子,一旦你有足夠的[聲譽](http://stackoverflow.com/faq#reputation),你將能夠[評論任何帖子](http://stackoverflow.com/privileges/comment)。 – Jesse 2013-04-27 00:13:42

+0

我在說的是我不相信NLP可以爲這樣一個問題提供答案。也許將它標記爲數據挖掘問題會更好。 – abecadel 2013-04-27 00:19:28

+0

對,它仍然是*評論*,而不是*答案*。如果您足夠擴展以作爲實際答案,即使它告訴提問者它是**不是** NLP問題,同時提供關於數據樹的答案。 – Jesse 2013-04-27 00:20:23