2016-03-28 90 views
0

我有一個數據集在蔚藍機器學習(.csv),在同一個數據集我有多個模型構建,我想爲每個模型的子集數據基於不同的列Azure機器學習工作室子集的等效

輸入:

ID col1 col2 col3 
1 0 13 0 
2 5 45 0 
3 10 0 34 
4 12 1 3 

對於第一個模式,我要保留所有記錄,其中COL1不等於無

ID col1 col2 col3 
2 5 45 0 
3 10 0 34 
4 12 1 3 

同樣,對於模型2

ID col1 col2 col3 
1 0 13 0 
2 5 45 0 
4 12 1 3 

希望很清楚

R中的等價物是

df[!df$col1 == "None",] 

回答

0

您可以使用「執行[R腳本」模塊,只是在你的R代碼裏面插在那裏。

df <- maml.mapInputPort(1) 
df <- df[!df$col1 == "None",] 
maml.mapOutputPort("df"); 
+0

非常感謝 –

0

不是完美的解決方案,但我們可以用所謂的 「分割數據」

輸入

模塊
ID col1 col2 col3 
1 0 13 0 
2 5 45 0 
3 10 0 34 
4 12 1 3 

預計產量

ID col1 col2 col3 
2 5 45 None 
3 10 None 34 
4 12 1 3 

解決方案:

Azure Machine Learning Screenshot

說明:

我曾用 「元數據編輯器」,以 'COL1' 重命名爲 '標籤'

模塊 「分割數據」正在使用分裂模式作爲「正則表達式」

在正則表達式我們使用以下條件

\"Label" ^0