2012-04-27 46 views
1

我正在爲html頁面實現一個web刮取器。問題是上下文的關係,因爲我需要決定我的內容和DB中的其他人之間的關係,所以我可以說是它們是相關或不作爲的視圖上下文點:根據其上下文查找兩個字符串之間的百分比關係

EX(1)

$str1 = "president obama visited Barcelona yesterday"; //politics context 
$str2 = "Barcelona was defeated from Chelsea yesterday"; //sports context 

實施例(2)

$str3 = "Obama's appearance on Late Night With Jimmy Fallon "; //media context 
$str4 = "Late Night show with jimmy fallon"; //mdeia context 

在第一示例

$ STR1$ STR2是在上下文中不同,因此關係可以是10%或更少

在第二個範例

$ STR3$ STR4是在相同的上下文(媒體)雖然關於總統奧巴馬的$ str3和關於吉米法倫的$ str4但兩者都與深夜秀有關,所以關係可能是90%

我正在使用Porter-Stemmer算法從單詞中刪除常見的結尾。接下來做什麼?

+0

很抱歉,但有什麼實際問題?你需要一個算法的通用描述,或者只是關於如何在CodeIgniter中實現你的想法的一些建議? – raina77ow 2012-04-27 14:05:18

+0

任何事情都將特別讚賞統計方法或算法來檢測這種關係 – 2012-04-27 14:11:40

回答

0
$exstr1=explode(" ", $str1); 
$exstr2=explode(" ", $str2); 
foreach($exstr1 as $exitem) 
{ 
    if (in_array($exitem, $exstr2) $match++; 
     else $mis++; 
} 
$percent=$match/($match+$mis)*100; 
相關問題