我需要分析一些關於DSL線路的互聯網會話的數據。我想看看會話持續時間是如何分配的。我想到一個簡單的方法來做到這一點,首先要製作所有會話持續時間的概率密度圖。獲取數據的概率密度
我已經加載了R中的數據並使用了density()
函數。所以,它是這樣的
plot(density(data$duration), type = "l", col = "blue", main = "Density Plot of Duration",
xlab = "duration(h)", ylab = "probability density")
我是新來的R和這種分析。這是我通過谷歌搜索發現的。我有一個情節,但我留下了一些問題。這是正確的功能去做我想做的事還是還有別的?
在圖中我發現Y軸刻度是從0 ... 1.5。我不明白它是如何可能是1.5,不應該從0 ... 1?
此外,我想獲得更平滑的曲線。因爲,數據集非常大,線條實際上是鋸齒狀的。當我提出這個問題時,讓他們平滑下來會更好。我會怎麼做呢?
你誤解了密度。 X的密度可以被看作一個值**,與**從總體中抽取一個位於X附近的數字成比例。現在根據定義,密度函數的積分等於1。這並不意味着密度函數的最大值應該是1,它可以很容易地變大。事實上,對於df =(1,1)的F分佈,密度的最大值(在0處)甚至是無窮大。 – 2010-11-18 13:18:42
@Joris是的,我現在意識到我沒有正確解釋它。簡單地說,我認爲,因爲它的概率分佈將小於1 :)。 – sfactor 2010-11-18 14:08:29