如何確定一個html標籤是否分割成多行

我在寫一個涉及到抓取網頁的php腳本。目前，該腳本分析了線的頁面線，但它通過刪除所有換行符打破，如果有跨多行標籤，像如何確定一個html標籤是否分割成多行

<img src="example.jpg" 
alt="example">

如果糟糕來糟糕的是，我可能預處理網頁，然後將它們重新插入最接近的>，但這看起來像是一團糟。

理想情況下，我將能夠檢測跨線的標記，只將這些標記與線結合，然後繼續處理。
那麼檢測這個最好的方法是什麼？

來源

2008-08-29 Factor Mystic

也許對於未來的項目我會使用一個解析庫，但是這只是一個問題。這是我目前的解決方案。 rstrpos是strpos，但是從相反的方向。使用示例：

for($i=0; $i<count($lines); $i++) 
{ 
    $line = handle_mulitline_tags(&$i, $line, $lines); 
}

及這裏的實現：

function rstrpos($string, $charToFind, $relativePos) 
{ 
    $searchPos = $relativePos; 
    $searchChar = ''; 

    while (($searchChar != $charToFind)&&($searchPos>-1)) 
    { 
     $newPos = $searchPos-1; 
     $searchChar = substr($string,$newPos,strlen($charToFind)); 
     $searchPos = $newPos; 
    } 

    if (!empty($searchChar)) 
    { 
     return $searchPos; 
     return TRUE; 
    } 
    else 
    { 
     return FALSE; 
    } 
} 

function handle_multiline_tags(&$i, $line, $lines) 
{ 
    //if a tag is opened but not closed before a line break, 

    $open = rstrpos($line, '<', strlen($line)); 
    $close = rstrpos($line, '>', strlen($line)); 
    if(($open > $close)&&($open > -1)&&($close > -1)) 
    { 
     $i++; 
     return trim($line).trim(handle_multiline_tags(&$i, $lines[$i], $lines)); 
    } 
    else 
    { 
     return trim($line); 
    } 
}

這很可能以某種方式得到優化，但對於我而言，這是不夠的。

來源

2008-08-29 16:20:57