根據其他三列中的值設置R列中的值

我從R中導出它並在Excel中手動添加Segment列後，有一些看起來像這樣的原始數據。根據其他三列中的值設置R列中的值

原始數據拉昇到Excel

我想寫R中的代碼，將添加段我。

數據說明......

ID: Random distinct numbers 
flag: Yes or No 
Period: 0-12 Mths or 12-24 Mths 
Spend Group: High, Medium or Low

規則...

Flag = Yes 
Period = 0-12 Mths 
Spend Group = High 
Then Segment = G01 

Flag = Yes 
Period = 0-12 Mths 
Spend Group = Medium 
Then Segment = G02 

Flag = Yes 
Period = 0-12 Mths 
Spend Group = Low 
Then Segment = G03 

Flag = Yes 
Period = 12-24 Mths 
Spend Group = High 
Then Segment = G04

...依此類推，直至所有的變量已經佔到

我想要的代碼在每次處理數據時識別差異，例如，該標誌不總是爲「是」或「否」。有時，每行都爲「是」。

我的完整數據集摘要如下圖所示。

彙總數據

你將如何開始R中的代碼呢？

來源

2017-07-13 Super_Si

首先，你希望將其保存爲CSV，然後將其讀入R作爲與數據幀'''DF < - read.csv（「C：/Users/you/path_to_file/file.csv」）'''。之後，我建議閱讀關於R的教程。這是您要學習的第一件事情之一 – rsoren

Thanks @rsoren。我已經擁有了R中的所有數據，這是處理的最後一步。我不想輸入規則，因爲可能會有比上面顯示的更多的變量。理想情況下，我想爲每個條件創建矢量或類似的東西，並將它們用作規則的主幹，例如flag < - c（「Yes」，「No」），recency < - c（「0-12 Mths 「，」12-24 Mths「）等。你能推薦一個教程。 –

你嘗試過什麼嗎？一個用戶陣營可能會建議使用'dplyr'管道，而另一些陣營則會使用'data.table'示例進行反擊。它也可以在R中直接進行，可能使用'ifelse'或其他基於向量的操作。首先，如果我們有一些數據可以使用，那麼製作一些東西就簡單多了，而且我不傾向於從圖像中轉錄。在[help/mcve]（https://stackoverflow.com/help/mcve）和[一個受歡迎的q/a]（https://stackoverflow.com/a/5963610/3358272）上編寫好的問題有很好的建議。。 – r2evans

爲了擴大我上面的評論（抱歉我很急），我建議讓你的規則在csv中（或者只是定義爲一個數據框架，但是如果他們要改變csv可能是最簡單的）並將它們作爲單獨的數據框讀取，例如下面的內容。這可以將標誌，句點和花費組的組合與要分配給每個組合的段相結合。

假設你的數據（與colnames 「Unique.ID」，「標誌」，「時間段」，「spend_group」）是在DF

library(dplyr) 
df_withSegment <- left_join(df, rules)

爲「標誌」，「時間段」，「spend_group 「是所有具有通用名稱的列，它將規則中的段的值分配給這三列的每個組合。

規則，例如數據幀（來自CSV或R）

來源

2017-07-14 01:15:54 user2738526

這個工作完美... finaldf < - left_join（df，Rules，by = c（「Flag」=「Flag」，「Period」= Period「，」SpendGroup「=」SpendGroup「））大家。 –

我會用四步ifelse()做到這一點。

你的四個子集Flag == "yes" & Recency == "0-12 Mths"，Flag == "yes" & Recency == "12-24 Mths"，Flag == "no" & Recency == "0-12 Mths"和Flag == "no" & Recency == "12-24 Mths"並推出ifelse()調用中引用您的數據：

mydata$Segment[mydata$Flag == "yes" & mydata$Recency == "0-12 Mths"] <- with(mydata[mydata$Flag == "yes" & mydata$Recency == "0-12 Mths", ], 
    ifelse(Spend Band == "High", "G01", 
    ifelse(Spend Band == "Medium", "G02", "G03"))) 

mydata$Segment[mydata$Flag == "yes" & mydata$Recency == "12-24 Mths"] <- with(mydata[mydata$Flag == "yes" & mydata$Recency == "12-24 Mths", ], 
    ifelse(Spend Band == "High", "G04", 
    ifelse(Spend Band == "Medium", "G05", "G06"))) 

mydata$Segment[mydata$Flag == "no" & mydata$Recency == "0-12 Mths"] <- with(mydata[mydata$Flag == "no" & mydata$Recency == "0-12 Mths", ], 
    ifelse(Spend Band == "High", "G07", 
    ifelse(Spend Band == "Medium", "G08", "G09"))) 

mydata$Segment[mydata$Flag == "no" & mydata$Recency == "12-24 Mths"] <- with(mydata[mydata$Flag == "no" & mydata$Recency == "12-24 Mths", ], 
    ifelse(Spend Band == "High", "G10", 
    ifelse(Spend Band == "Medium", "G11", "G12")))

你將不得不改變變量名，爲Spend Band不是R中一個可行的變量名，因此我猜你的名字叫做Spend_Band或類似的東西。

來源

2017-07-13 07:16:19 LAP

使用dplyr :: left_join（）獲取數據並給出分段 – user2738526

可能更容易製作一個單獨的數據框，但不幸的是，我不太熟悉dplyr。 – LAP

感謝您的評論。看到上面的數據鏈接。我想我需要玩一些類似@abishek提供的答案，因爲每次數據加載時我的值可能會發生變化，並且使用字段名稱而不是爲每個結果寫入值會考慮到這一點。只是不知道該怎麼做！ –

在我頭頂合併似乎是正確的方式。（raw_data，summary_data，by.x = c（「flag」，「period」，「cost_group」），by.y = c（「flag」，「recency」，「spend_band」））

來源

2017-07-13 07:36:05

@Super_Si慷慨地接受答案，如果它對您有幫助 –

請參閱上面的數據鏈接。我想我需要玩這樣的事情，因爲每次數據加載時我的值可能會發生變化，並且使用字段名稱而不是爲每個結果寫入值會考慮到這一點。只是不知道該怎麼做！ –

根據其他三列中的值設置R列中的值

回答

相關問題