2017-08-28 66 views
0

我是新來的Python和機器學習。我有這個數據file我想要應用二進制分類。但我無法猜測它的格式,並用Python加載它。有人能幫助我嗎?我的訓練數據文件的格式是什麼?

在數據集中,第一列是類,有100個特徵。我正在使用熊貓IO來加載它,並嘗試read_csv,但它不工作!而且它絕對不是JSON。 (至今我只使用這些格式,所以如果它是一些衆所周知的格式,請提前諒解!)

+0

文件似乎是一個自定義格式。熊貓將不會有任何可以讀取此特定格式的讀取方法,因此您必須編寫自己的自定義代碼來解析數據集。 –

+0

@ Scratch'N'Purr好吧!非常感謝! – Fenil

回答

0

您可以嘗試sklearn.datasets.load_svmlight_file來閱讀文件。

下面是從文檔鏈接如何使用方法的例子:

from sklearn.externals.joblib import Memory 
from sklearn.datasets import load_svmlight_file 
mem = Memory("./mycache") 

@mem.cache 
def get_data(): 
    data = load_svmlight_file("mysvmlightfile") 
    return data[0], data[1] 

X, y = get_data() 
0

這是一個純文本文件。通過查看第一行,它看起來像一個libsvm格式。 請參閱this以供參考。

相關問題