2017-04-13 504 views
0

我試圖分析R中的數據集,其中我有一段時間的項目銷售額,我想了解分類變量對銷售數量的影響。R - 分析連續變量的分類變量的影響

library("data.table") 

qty <- c(100,10000,100,200,150,9000) 
flavour <- c("Mint","Herb","Mint","Mint","Herb","Fruit") 
category <- c("Multiple","Multiple","White","Multiple","Other","White") 

sales_data <- data.frame(qty,flavour,category) 

str(sales_data) 

'data.frame': 6 obs. of 3 variables: 
$ qty  : num 100 10000 100 200 150 9000 
$ flavour : Factor w/ 3 levels "Fruit","Herb",..: 3 2 3 3 2 1 
$ category: Factor w/ 3 levels "Multiple","Other",..: 1 1 3 1 2 3 

我一直在尋找多個壓力和簡單的線性迴歸,但我覺得我可能在錯誤的軌道上。我的理解是,我可以使用簡單的線性迴歸來確定2個連續變量之間的關係。我可以看到有一種方法可以使用多個迴歸來理解分類變量和連續變量之間的關係,但我發現的例子似乎停止在二進制值。例如,有人吸菸或不吸菸。鑑於我對每個分類變量都有多個值,多重回歸是正確的方式還是我完全偏離了軌道?

我的實際數據集有大約10個分類變量,其中一些與位置有關,其他與品牌有關。

任何幫助將不勝感激。並道歉,如果這是錯誤的地方,或者我錯過了一些明顯的東西 - 我正在學習統計數據和R在同一時間,所以很快變得困惑

+0

您需要查看建模分類數據。大多數廣義線性模型的教科書/在線課程都會告訴你這個問題,它在R中的作用很小(只需在公式的RHS上加上你的變量)。 – Spacedman

+0

您聲明'隨時間推移項目的銷售額',您示例中的哪個變量隨時間而變化? – vincentmajor

+0

謝謝@Spacedman,我在使用什麼樣的搜索條件時迷路了 - 在許多兔子洞裏。我會查找的,謝謝。 – user7863288

回答

1

你當然可以有一個連續因變量(qty)的連續和分類預測因子,它們不一定是二元的。分類變量應該是"factor"。對於問題中顯示的兩個分類/因子變量:

fm <- lm(qty ~., sales_data) 
summary(fm) 
+0

這假設數據正常分發。如果你想得到真正的非參數數據,如果你發現數據不是正態分佈的或者決策樹/隨機森林,你可以使用glm。甚至還有貝葉斯信仰網絡! – Zafar

+0

一些測試涉及正態性假設,但如果高斯馬爾可夫定理的條件保持迴歸係數即使在非正態性存在時也是無偏的,而且它們在某種意義上是最好的。 –

+0

謝謝@ G.Grothendieck我會仔細看看這個。一件令我擔心的事情是正常分配的主題。我已經閱讀了大量需要正態分佈的數據以應用一系列分析。可以肯定的是,有證據表明迴歸對於非正態數據仍然適用。 – user7863288