2009-04-13 37 views
4

德國網站nandoo.net提供了縮短新聞文章的可能性。如果使用滑塊更改百分比值,則文本會更改並且某些語句會被忽略。縮短文本並保留重要句子

你可以看到,在這裏的行動:

http://www.nandoo.net/read/article/299925/

新聞文章左側和標籤標註。滑塊位於第二列的頂部。將滑塊向左移動得越多,文本越短。

你怎麼能提供這樣的東西?有什麼算法可以用來實現嗎?

我的想法是他們的算法計算了句子中標籤和名詞的數量。那麼標籤/名詞數量最少的句子將被忽略。

這是真的嗎?或者你有另一個想法?

我希望你能幫助我。提前致謝!

回答

2

通常情況下,您希望保留含有該文章更爲獨特的詞語的句子。

也就是說,句子越「通用」,它描述這篇特定文章的就越少。

正常的做法是貝葉斯分析很像垃圾郵件過濾器。首先確定整篇文章中哪些詞比您期望的更頻繁出現,然後查找包含這些詞的句子。

+0

謝謝!那麼你只需要存儲數據庫中所有單詞的出現次數。那沒問題。但爲什麼你需要貝葉斯分析?你可以瀏覽文本,選擇單詞的頻率併爲每個句子計數。對? – caw 2009-04-13 09:29:37

+1

你不應該使用純粹的計數,因爲自然更豐富的單詞*預計*具有較高的計數,而你正在尋找單詞,其中的計數是高*相對*的預期。貝葉斯分析正是如此。 – 2009-04-13 20:39:06

3

這是計算語言學的熱門研究課題。使用貝葉斯過濾的淺層方法不太可能產生完美的結果 - 但您可能不需要完美的結果。

在CL中,80-20規則很快成爲95-5規則,因此如果您滿足於通過淺層方法可以實現的內容,請跳過此答案。

如果你想看看你是否能改善你的結果,你可以嘗試找到一些更好的資源。你所說的任務在研究界被稱爲「文本摘要」,它有自己的web page,這是絕望的過時。 Mani and Maybury (1999)可能是一個很好的概述(我沒有自己讀過),但也相當陳舊。最近有Martin Hassels dissertation關於這個話題,也很詳盡,包括與語言無關的(閱讀:統計,即淺層)的方法。

與往常一樣,Google也能幫助您。只需搜索text summarization