我有大約3000個與文檔「有趣」時間有關的文本文檔。因此,讓我們假設文檔1有300行含有內容的文本,導致持續5.5天的利息期,而另一個帶有40行文本的文檔導致持續6.7天是「有趣的」,依此類推。如何從文本文檔預測連續值(時間)?
現在的任務是基於文本內容預測感興趣的持續時間(這是一個連續的值)。
我有兩個思路來解決這個問題:
- 建立類似文件的模型像http://radimrehurek.com/gensim/simserver.html的技術。當新文件到達時,可以嘗試找到過去10個最相似的文件,並簡單地計算其持續時間的平均值,並將該值作爲對新文件的感興趣持續時間的預測。
- 將文檔分爲持續時間類別(例如1天,2天,3-5天,6-10天......)。然後訓練分類器根據文本內容預測持續時間類別。
想法#1的優點是我也可以計算出我的預測的標準偏差,而對於想法#2,我不太清楚,我怎樣才能計算出我預測的不確定度的類似度量。此外,我不清楚哪些類別選擇從分類器中獲得最佳結果。
那麼是否有一個經驗法則如何建立一個系統,以最好地預測文本文檔中的時間連續值?是否應該使用分類器,還是應該使用類似文檔中的平均值的方法?我在這個領域沒有真正的經驗,並且想知道,你認爲哪種方法可能會產生最好的結果。如果您知道可用於解決此問題的簡單現有技術(基於Java或Python),則會給出獎勵點。
@larsmans:爲什麼一方面你對這個問題給出了答案,另一方面你對這個問題投了贊成票作爲題外話? – asmaier 2013-02-26 15:03:05