2013-02-27 64 views
0

我希望使用Senseval-2粗略數據集,但有相同的說明(關於數據集的格式)。senseval 2數據集格式

它應該具有決定數據,即兩個意義是否應該合併。中間值是一種信任度量嗎?此外,他們還使用了Wordnet 1.7的預發行版。我可以使用Wordnet 1.7嗎?

從文件的樣品看起來像:

材料%5:00:00:物理:00 3材料%5:00:00:世俗:00

材料%3:00:03 :: 3材料%5:00:00:世俗:00

材料%3:00:04:2材料%3:00:01 ::

材料%3:00:02 ::

post%5:00:00:成功(a):00

本%3:00:01 ::

本%3:00:02 ::

本%3:01:00 ::

石%3:01:00: :

石%5:00:00:色度:00

空氣%1:15:00:4的空氣%1:27:00 ::

空氣%1:19:00 :: 4空氣%1:27:00 ::

空氣%1:27:01:4的空氣%1:27:00 ::

空氣%1:04:00 ::

空氣%1:10:02 ::

空氣%1:07:00 ::

空氣%1:10:01 ::

上訴%1:04:00:3的吸引力%1:10:00 ::

上訴%1:10:02 :: 3上訴%1:10:00 ::

回答

2

通過檢查,中間數字實際上描述了多少感官處於相同的合併意義上。例如:

matrial%5:00:00:physical:00 3 material%5:00:00:worldly:00 
material%3:00:03:: 3 material%5:00:00:worldly:00 

基本上說,有3個感測這被認爲是相同material%5:00:00:worldly:00,其在兩條線提供的兩個感測,讀出自身。

你也可以看到,沒有合併的感覺沒有數字,如air%1:04:00,對於感覺material%3:00:04:: 2 material$2:00:01::你可以看到有兩種感覺。因此,您可以通過將第一個位置的感官映射到第二個位置的感覺來進行合併。