2011-11-05 207 views
0

我想從文本中構建獨特的隨機短語來檢測抄襲。我們的想法是筆者將提交文章,然後PHP將修建從文字用語將被用於剽竊檢測PHP從文本生成隨機短語

考慮下面的句子:

這是一個非常漫長而枯燥的文章,這篇文章是抄襲。

根據上述文字,系統將確定將產生多少短語,即20個單詞長的文章將具有3個短語。最大生成的短語可以是最少兩個字,最長3個字。返回的輸出會是這樣

  • 很長
  • 文章涉嫌抄襲

我寫下面的代碼

$words = str_word_count($text, 1); 
$total_phrases_required = count($words) /2; 
//build phrases 

我需要提示如何完成零件的其餘部分。

+0

如果您想自動創建可以搜索的短語,您需要一個包含常用詞語(如「a」,「is」,「和」...)的數據庫並過濾文本中的詞組。剩下的單詞將成爲搜索的流行語。當然,這可以被優化,以獲得小句子,但是這將需要更多的邏輯。 – Frank

回答

0

您可以將文本分成兩個句子數組,然後使用類似similar_text函數的函數遞歸檢查相似的字符串。

另一個想法,找到徹底的貧困。你可以再次將文本分解成句子。但隨後放入數據庫並運行一個查詢,按查詢列選擇索引列和組的計數。如果任何結果返回大於1,那麼您需要完全匹配該句子。