2012-07-14 88 views
4

有我在哪裏給出一個總票數的情況,累計門票銷售數據如下:的Python:計算概率點將在符合曲線

Total Tickets Available: 300 
Day 1: 15 tickets sold to date 
Day 2: 20 tickets sold to date 
Day 3: 25 tickets sold to date 
Day 4: 30 tickets sold to date 
Day 5: 46 tickets sold to date 

門票銷售的數量是非線性的,我被問到是否有人計劃在第23天購買機票,他會得到一張機票的概率是多少?

我一直在看相當一個庫,用於像numpy,PyLab和聖人這樣的曲線擬合,但由於統計數據不在我的背景中,所以我有點不知所措。在給定這組數據的情況下,我如何輕鬆計算概率?如果有幫助,我也可以在其他地方購買機票銷售數據,曲線應該有所不同。

+0

你給予了很多這樣的數據集(N門票,每個數據集d天),如果是這樣的? ,那麼你可以用這個機器學習或者遺傳算法來做這件事 – inspectorG4dget 2012-07-14 07:36:31

+0

最初不是,因爲數據收集還沒有開始,但最終,我們假設在三個月的時間內可能有200-250個數據點,這取決於位置。實現機器學習算法是每個位置都不同,所以我不確定它是如何工作的,而且我們並沒有從很多數據點開始(實際上我們是從0開始的)。我目前最大的問題是以某種方式畫一個專業數據的可用性,而不僅僅是尋找回歸。 – zhuyxn 2012-07-14 08:25:35

+0

不幸的是,你需要更多的領域知識才能夠從中獲得有用的答案。你有什麼理由相信它是非線性的?如果你確信它是非線性的,你會期望什麼樣的模型 - 二次的,指數的,對數的? – 2012-07-14 13:43:55

回答

2

這個問題的最佳答案需要更多關於這個問題的信息 - 當日期接近(並且割得太多)時,人們是否更有可能購買機票?是否有廣告活動暫時影響銷售率?等等。

雖然我們無法獲得該信息,但我們假設第一個近似值是門票銷售率恆定。由於銷售基本上是隨機發生的,因此可能最好將其模擬爲Poisson process請注意,這並不能解釋許多人會購買多張票的事實,但我認爲這對結果沒有多大影響;也許真正的統計學家可能會在這裏發出響聲。另外:我將在這裏討論恆速泊松過程,但請注意,由於您提到的速率決定不是恆定的,因此您可以將可變速率泊松過程看作下一步。

要模擬泊松過程,您只需要平均門票銷售率。在您的示例數據中,每日銷售額[15,5,5,5,16],因此平均每天約9.2個門票。我們已經售出了46張門票,因此剩下254張門票。

從這裏可以很容易地問到:「給定9.2 tpd的價格,在23天內賣出小票的概率是多少,哪怕是低於 254票?」 (無視不可以賣出超過300張門票)。計算這種方法的方法是使用累積分佈函數(請參閱用於泊松分佈的CDF的here)。

平均而言,我們預計在23天后出售23 * 9.2 = 211.6張票,因此用概率分佈的語言,期望值爲211.6。 CDF告訴我們,「給定期望值λ,看到值爲< = x的概率是多少」。你可以自己做數學或要求SciPy的來爲你做它:

>>> import scipy.stats 
>>> scipy.stats.poisson(9.2 * 23).cdf(254-1) 
0.99747286634158705 

所以這告訴我們:IF門票銷售可以準確地表示爲泊松過程和IF門票銷售的平均率真的是9.2 tpd,那麼23天后至少有一張門票可用的概率是99.7%。

現在我們假設有人想帶一組50個朋友,並想知道如果他們在25天內購買50張門票的可能性(改爲「如果我們預計平均銷售9.2 * 25門票,賣出的概率是多少(=(254-50))門票?「):

>>> scipy.stats.poisson(9.2 * 25).cdf(254-50) 
0.044301801145630537 

因此,有50票後25天可用的概率約爲4%

+0

我熟悉泊松過程,但不適用於可變比率過程,是否類似於非齊次泊松過程?你說我需要更多關於我的機票銷售分配的信息是正確的,事實的真相是我不知道。我假設門票銷售是非線性的,因爲每個人都有非線性的「分配日期」來購買門票,並且以前無法購買。但是一旦這個日期到來,一個人可能會在100個地點之一註冊。我以前認爲曲線擬合是最好的方法,但也許情況並非如此。 – zhuyxn 2012-07-14 20:59:11

+0

是的,非同質是我的意思是浮動利率。曲線擬合對你來說應該是一種有用的方法來模擬和預測一段時間內的平均速率,但它並沒有告訴你任何有關概率的信息。泊松分佈讓你從速率到概率。 – Luke 2012-07-14 21:45:22

+0

是否有任何方法可能使用曲線擬合與泊松分佈相結合,或許是爲了推斷更多的數據點? – zhuyxn 2012-07-14 22:00:17