2011-05-19 60 views
0

我正在開發抄襲檢測框架。在那裏,我們首先用詞幹,同義詞替換和停用詞移除的方式預處理文檔。所以預處理文檔與原始文檔有所不同。顯示抄襲結果

在我們輸入預處理文檔到我們的剽竊函數後,它返回相似的句子。

然後在我們的GUI中,我們必須通過突出顯示兩個文檔和相似的句子。

要在java中突出顯示,我們必須獲取單詞的索引並突出顯示。

問題是預處理後的文本與原始文檔不同,所以很難在原始文檔中編制類似的句子。

任何人都可以幫助我解決這個問題嗎?

+0

幫助的信息太少 – 2011-05-19 06:27:13

+8

這是一個具有諷刺意義的人的家庭作業任務嗎? – 2011-05-19 06:27:55

+0

已經完成:Simian - Similarity Analyzer:http://www.harukizaemon.com/simian/ – 2011-05-19 06:36:03

回答

2

您必須使用預處理文檔存儲某種元數據,以便將其內容映射到原始文檔。像保留清除停用詞所產生的所有空白列表或存儲有關用同義詞替換詞語的信息。

如果您記錄預處理期間所做的每一項更改(位置/替換文本),那麼您應該能夠在原始文檔中找到原始短語。

+0

同意:解決方案的核心是跟蹤原始文檔如何轉換。這可能是停用詞/空白/標點符號刪除,在這種情況下,轉換仍然是線性的(差異可以用作核心技術),但也許句子可以重新排序?在這種情況下,你需要有一個映射哪些片段移動到哪裏。 – bart 2011-05-19 11:20:55