我正在爲html頁面實現一個web刮取器。問題是上下文的關係,因爲我需要決定我的內容和DB中的其他人之間的關係,所以我可以說是它們是相關或不作爲的視圖上下文點:根據其上下文查找兩個字符串之間的百分比關係
EX(1)
$str1 = "president obama visited Barcelona yesterday"; //politics context
$str2 = "Barcelona was defeated from Chelsea yesterday"; //sports context
實施例(2)
$str3 = "Obama's appearance on Late Night With Jimmy Fallon "; //media context
$str4 = "Late Night show with jimmy fallon"; //mdeia context
在第一示例
$ STR1和$ STR2是在上下文中不同,因此關係可以是10%或更少
在第二個範例
$ STR3和$ STR4是在相同的上下文(媒體)雖然關於總統奧巴馬的$ str3和關於吉米法倫的$ str4但兩者都與深夜秀有關,所以關係可能是90%
我正在使用Porter-Stemmer算法從單詞中刪除常見的結尾。接下來做什麼?
很抱歉,但有什麼實際問題?你需要一個算法的通用描述,或者只是關於如何在CodeIgniter中實現你的想法的一些建議? – raina77ow 2012-04-27 14:05:18
任何事情都將特別讚賞統計方法或算法來檢測這種關係 – 2012-04-27 14:11:40