2017-05-26 53 views
1

我一直在學習Graphlab,但也想看看熊貓,因爲它是開源的,將來我可能會發現自己在沒有GL許可證的公司,我想知道熊貓如何以我能夠以GL的方式創建一個基本模型。如何從Graphlab移動到熊貓

data = pd.read_csv("~/Downloads/diamonds.csv") 
sframe = gl.SFrame(data) 
train_data, test_data = sframe.random_split(.8, seed=1) 
train, test = train_test_split(data, train_size=0.75, random_state=88) 
reg_model = gl.linear_regression.create(train_data, target="price", features=["carat","cut","color"], validation_set=None) 

上面最後一行的熊貓等值是什麼?

+1

沒有一個'pandas'等同。你想要使用像sklearn這樣的不同的庫。我會添加標籤。 – piRSquared

+0

謝謝!我會看看scikit –

回答

1

pandas本身沒有任何內置的預測建模(我知道)。 Here is a good link on how to leverage pandas在統計模型。 This one too.

pandas可能是Python中用於數據操作的最好模塊之一(如果不是最好的話)。這會讓存儲數據和建模比列表和閱讀的CSV更容易操縱數據等

讀入文件是(注意這是多麼直觀)一樣簡單:

import pandas as pd 
# Excel 
df1 = read_excel(PATH_HERE) 
# Csv 
df1 = read_csv(PATH_HERE) 
# JSON 
df1 = read_json(PATH_HERE) 

,並吐出它:

# Excel 
d1.to_excel(PATH_HERE) 
# Need I go on again?? 

它也使過濾和切片你的數據非常簡單。 Here is the official doc

出於建模目的,請參閱 sklearnNLTK進行文本分析。還有其他的,但那些是我用過的。

1

對於建模,你必須使用sklearn庫。最後一行相當於是:

model = sklearn.linear_model.LogisticRegression() 
model.fit(train_data["carat","cut","color"], train_data["price"]) 

docs