2010-05-24 93 views
0

我有一組訓練數據,其中包含20個選擇題(A/B/C/D),由100位回答者回答。答案是純粹的分類,不能縮放到數值。這些受訪者中有50人被選中進行免費產品試用。選擇過程未知。這些信息可以挖掘出哪些有趣的知識?數據挖掘/分析對調查中選擇題的回答

以下是名單我已經拿出這麼遠

  • 百分比的研究(示例 - 是誰在Qs.5回答B和選擇得到免費產品試用人口百分比)
  • 條件概率(例如 - 一個人在免費產品試用中被選中,因爲他在Qs5上回答B的概率是多少)
  • 樸素貝葉斯分類器(這可以用來預測一個人是否會選擇或不選擇任何問題子集的給定值集)。

您能想到可以執行的任何其他有趣的分析或數據挖掘活動嗎?

通常的嫌疑人,如相關可以消除,因爲響應是無法量化/可評分的。

我的方法是否正確?

+0

您可以使用Phi,L,C或Lambda係數進行標稱變量之間的相關 – 2010-05-26 21:48:15

回答

2

這是一種逆向工程。

對於每位受訪者,您有20個答案和一個標籤,表明該答覆者是否獲得產品試用。

您想知道哪20個問題對give trial or not決定至關重要。我建議你首先在訓練數據上建立一個決策樹模型。仔細研究樹,以獲得一些見解,例如低層決策節點包含大多數判別式問題。

1

這些問題的答案可以由數字進行分析的目的,例如:

RespondentID IsSelected Q1AnsA Q1AnsB Q1AnsC Q1AnsD Q2AnsA... 
12345   1   0  0  1  0  0 
  1. 使用關聯分析,看看是否有答案的模式。

Q3AnsC + Q8AnsB - > IsSelected

  • 使用分類(如邏輯迴歸或決策樹)來建模用戶如何選擇。

  • 使用聚類。有不同的受訪者羣體嗎?他們在哪些方面有所不同?使用「肘」或scree方法來確定聚類的數量。

  • 您是否有關於受訪者的其他信息,如人口統計?在這種情況下,樞軸桌將會很好。

  • 是否缺少數據?人們跳過問題的方式有沒有模式?