2016-01-13 97 views
2

道歉,因爲我是一個完全的新手,當談到Weka。一個weka屬性的多個值

我有100個實例,每個實例有400個屬性,其中大多數屬性都有一個值。但是,有些屬性具有多個值,因爲它們包含時間分量。我在想,如果Weka中可以分析多個值的一個屬性,如果是這樣,我怎麼區分這些值,以便WEKA可以讀取它們(如逗號,分號?)

的幫助非常感謝

R

+2

快速谷歌對於ARFF或屬性,關係文件格式將展示如何構建數據集! – SJB

回答

3

Weka本地工作的格式稱爲arff首字母縮略詞屬性關係 文件格式。這種格式由三部分組成明顯不同的結構:

1.頭。在這裏,定義關係的名稱。它的格式如下:

relation <name-of-the-relationship>

哪裏是String類型。如果這個名字包含一些 的空格將被放在引號之間。

2.屬性的聲明。本節描述組成我們的文件的屬性,並聲明瞭他的類型。語法是:

attribute <attribute-name> <type>

凡是具有如上 相同的限制String類型。

Weka中接受各種類型的,它們是:

一個)NUMERIC。實數*

b)INTEGER。

c)日期。日期,做這種類型之前應該有一個標籤引用格式。 標籤格式由分隔符(連字符 和/或空格)和時間單位組成: dd日。 MM月。 yyyy年。 HH小時。 毫米分鐘。 秒。

d)STRING。。在之前的String類型的限制下,註釋爲 。

E)上市這種類型的標識符是在大括號來表達並分離 ,可以採取 屬性逗號可能的值(或字符串)。例如,如果我們有一個表示該時間可以定義的屬性:

attribute time {sunny, rainy, cloudy}

3.數據段。聲明構成逗號分隔屬性和換行符關係之間關係的數據。

數據

4,3.2

雖然這是「滿」模式下,可以在很短的形式(稀疏數據)來定義該數據。如果我們有一個樣本中有很多數據,我們可以表示0數據,省略那些爲零的項目,將大括號中的每一行包圍起來,並在每個數據前面放置屬性編號。

這方面的一個例子如下:

數據

{14 1,3 3}

倘任何信息是未知的與表達密切訊問的符號(「?」)。如果你想添加評論,請使用字符%。

因此,您可以使用多個值來構建您的數據集。

例子:

1 % Test Weka. 
2 @relation MyTest 
3 
4 @attribute nombre STRING 
5 @attribute ojo_izquierdo {Bien,Mal} 
6 @attribute dimension NUMERIC 
7 @attribute fecha_analisis DATE "dd-MM-yyyy HH:mm" 
8 
9 @data 
10 Antonio,Bien,38.43,"12-04-2003 12:23" 
11 ’Maria Jose’,?,34.53,"14-05-2003 13:45" 
12 Juan,Bien,43,"01-01-2004 08:04" 
13 Maria,?,?,"03-04-2003 11:03"