縮短文本並保留重要句子

德國網站nandoo.net提供了縮短新聞文章的可能性。如果使用滑塊更改百分比值，則文本會更改並且某些語句會被忽略。縮短文本並保留重要句子

你可以看到，在這裏的行動：

http://www.nandoo.net/read/article/299925/

新聞文章左側和標籤標註。滑塊位於第二列的頂部。將滑塊向左移動得越多，文本越短。

你怎麼能提供這樣的東西？有什麼算法可以用來實現嗎？

我的想法是他們的算法計算了句子中標籤和名詞的數量。那麼標籤/名詞數量最少的句子將被忽略。

這是真的嗎？或者你有另一個想法？

我希望你能幫助我。提前致謝！

來源

2009-04-13 caw

通常情況下，您希望保留含有該文章更爲獨特的詞語的句子。

也就是說，句子越「通用」，它描述這篇特定文章的就越少。

正常的做法是貝葉斯分析很像垃圾郵件過濾器。首先確定整篇文章中哪些詞比您期望的更頻繁出現，然後查找包含這些詞的句子。

來源

2009-04-13 00:36:41

謝謝！那麼你只需要存儲數據庫中所有單詞的出現次數。那沒問題。但爲什麼你需要貝葉斯分析？你可以瀏覽文本，選擇單詞的頻率併爲每個句子計數。對？ – caw 2009-04-13 09:29:37

你不應該使用純粹的計數，因爲自然更豐富的單詞*預計*具有較高的計數，而你正在尋找單詞，其中的計數是高*相對*的預期。貝葉斯分析正是如此。 – 2009-04-13 20:39:06

這是計算語言學的熱門研究課題。使用貝葉斯過濾的淺層方法不太可能產生完美的結果 - 但您可能不需要完美的結果。

在CL中，80-20規則很快成爲95-5規則，因此如果您滿足於通過淺層方法可以實現的內容，請跳過此答案。

如果你想看看你是否能改善你的結果，你可以嘗試找到一些更好的資源。你所說的任務在研究界被稱爲「文本摘要」，它有自己的web page，這是絕望的過時。 Mani and Maybury (1999)可能是一個很好的概述（我沒有自己讀過），但也相當陳舊。最近有Martin Hassels dissertation關於這個話題，也很詳盡，包括與語言無關的（閱讀：統計，即淺層）的方法。

與往常一樣，Google也能幫助您。只需搜索text summarization。

來源

2009-05-05 22:16:21

縮短文本並保留重要句子

回答

相關問題