如何使用正則表達式的靜態HTML代碼（PHP）

我是Regualr表達式的新手，我只是沒有得到它的掛鉤。如何使用正則表達式的靜態HTML代碼（PHP）

我已經使用CURL和PHP從給定的網頁抓取了html內容。這個網頁從來沒有改變其結構。頁面上的結果取決於搜索功能，但html標籤始終是相同的。我需要根據輸入的搜索字詞從頁面中獲取結果數據。

我需要的數據是：

<h1 class="location_only">(555) 555-5555 is a Landline</h1>

所以我要抓住什麼是插圖中

<h1 class="location_only">和</h1>

如果我有$data，這是生成的HTML，如何我把它放到正則表達式中並回顯我發現的數據爲$result？

來源

2012-04-23 user1351759

你能否提供你正在試圖從提取的HTML代碼的實例或片段？ – 2012-04-23 16:10:57

回答了數百萬次，其中...將html解析爲xml並從中取出...不要使用正則表達式 – scibuff 2012-04-23 16:14:31

[RegEx match open tags but XHTML self-contained tags]可能的重複（http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-標籤） – gpojd 2012-04-23 16:23:25

你不能可靠地從HTML中用正則表達式提取信息。但是，您可以使用HTML解析器，如DOMDocument::LoadHTML。這將從一個字符串中獲取HTML，然後您可以使用諸如getElementById或getElementByTagName之類的函數來查找您的值。還有其他的HTML解析器。

來源

2012-04-23 16:15:21

Please do not use regular expressions to parse HTML.

請使用HTML解析器，如Simple HTML DOM Parser。您的問題可能看起來局部化，但事實並非如此。即使是這樣，對於這種類型的問題，在以後的日期範圍內會有很大的吸引力，即使您可以使用正則表達式來處理這些問題，也會帶來很大的麻煩。

來源

2012-04-23 16:16:22

嗯，我有簡單的HTML DOM分析器，但我真的不知道如何在這個應用程序中使用它。如果我這樣做，我會的。你能指導我參加一個教程，還是應該開始一個新的問題？ – user1351759 2012-04-23 16:25:53

這兩個答案告訴你不要正則表達式，而是使用一個DOM解析器是正確的，但是，如果頁面結構沒有改變，一個快速的&骯髒的正則表達式會做的伎倆就好了，因爲你有絕對好的開始和結束點供參考。

來源

2012-04-23 16:17:52 red

您可以選擇與此搜索模式標籤之間的文本：

<span id="result1">(.*?)</span>

捕獲組申報表「（555）555-5555爲固定電話」，如果你的代碼是：<span id="result1">(555) 555-5555 is a Landline</span>。

有關更多信息，請參閱preg_match()如何回顯結果。

也像其他人所建議的那樣查看HTML DOM解析器。也許我不應該有任何答案...

來源

2012-04-23 16:20:32

您被提醒足以不使用正則表達式來解析HTML。因此，這裏是一個DOM解析器基於代碼提取你的價值：

$html = <<< EOF 
<html> 
<head> 
<title>Some Title</title> 
</head> 
<body> 
<H1 class="location_only">(555) 555-5555 is a Landline</H1> 
</body> 
</html> 
EOF; 
$doc = new DOMDocument(); 
libxml_use_internal_errors(true); 
$doc->loadHTML($html); // loads your html 
$xpath = new DOMXPath($doc); 
$value = $xpath->evaluate("string(//h1[@class='location_only']/text())"); 
echo "Your H1 Value=[$value]\n"; // prints text between <h1> and </h1>

OUTPUT：

Your H1 Value=[(555) 555-5555 is a Landline]

來源

2012-04-23 17:08:01 anubhava

如何使用正則表達式的靜態HTML代碼（PHP）

回答

相關問題