如何提取從HTML文件如何使用PHP從HTML文件中提取所有文本?
所有文字我想提取所有文字,在ALT屬性,< p>標籤等。
但是我不想提取風格之間的文本和腳本標籤
感謝
現在我有以下代碼
<?PHP
$string = trim(clean(strtolower(strip_tags($html_content))));
$arr = explode(" ", $string);
$count = array_count_values($arr);
foreach($count as $value => $freq) {
echo trim ($value)."---".$freq."<br>";
}
function clean($in){
return preg_replace("/[^a-z]+/i", " ", $in);
}
?>
這很好,但它檢索腳本和樣式標籤,我不想檢索 和另一個問題,我不確定它是否確實檢索屬性,如ALT - 因爲strip_tags函數可能會刪除所有具有其屬性的HTML標記
謝謝
使用正則表達式來查找您的內容,而不是將其用於清理。 – jantimon 2009-10-02 08:16:35
您是否有要從中提取文本的標籤和屬性的「白名單」,或者您不想從中提取文本的標籤/屬性的「黑名單」? – VolkerK 2009-10-02 08:27:42
@Ghommey:謝謝我正在嘗試,但它對我來說太難了 – ahmed 2009-10-02 08:40:36