2016-10-11 84 views
1

有這樣的數據:什麼是迴歸算法用於這種情況?

clientId zipCode codeHeatingType countingType consumptionProfile householdCount squareFootage 

01  75015 ELEC   P012   A400   6    25    

02  75002 GAZ    P011   A600   3    30    

和AvgConsumtion

clientId  AvgConsumption 
    01   300.5  (KWH) 
    02   400  (KWH) 

用什麼機器學習根據客戶特點Avgconsumption估算? LogisticRegression?,多標籤分類?...

有沒有可能有一個字符串列的例子?

回答

0

您需要一個預測連續變量的迴歸算法。您可以在示例中找到spark.mlhere中實施的迴歸算法列表。

分類預測變量可以使用非參數(非優化)Transformer(請參見http://spark.apache.org/docs/latest/ml-features.html)以各種方式轉換。例如,OneHotEncoder將轉換一組二元預測變量中的分類預測變量。 documentation提供了示例。

注意:請在嘗試太多之前通知您機器學習的一些基本知識。有一系列純粹是統計性質的陷阱。對於具體問題,請問here

+0

是線性迴歸還是廣義線性迴歸預測一個連續變量?如何知道它是否? –

+0

鏈接部分中的所有方法都是迴歸方法(參見內容表:http://spark.apache.org/docs/latest/ml-classification-regression.html)。但並不是所有的迴歸模型都會在你的情況下有意義。這不是一個語法問題,因此它不在StackOverflow的範圍內(請參閱http://stackoverflow.com/help/on-topic) – Wilmerton

+0

我想知道哪些能夠預測連續變量?並且更適合我的需要 –

相關問題