2010-08-06 78 views
-1

我有一個網站http://www.coldwellbankerpbr.com/listings.aspx,我想抓住房源,現在我需要的地址和臥室的詳細信息,等等但是除了文本地址沒有唯一的標識符(這是重複幾次上頁面)我在看PHP DOM,但是這似乎更多的是尋找獨特的標籤(div id's等)。PHP屏幕抓取方法

有沒有更多的方法,我應該看看這個更基於文本的地址******搜索?該表是這樣的:

<td width="55">Address</td><td>ADDRESS HERE</td> 

謝謝!

+2

你不能在頁面底部看到一個註釋,**「嚴禁全部或部分複製。」**? – 2010-08-06 03:34:18

+0

現在通常我會評論一下,我問你如何做到這一點的方法,而不是我可以。但我想我會通過,讓我們總結一下。我正在爲有權複製的代理人執行此操作。 – Steven 2010-08-06 03:39:27

回答

3

我會嘗試XPath,如果我是你。例如使用SimpleXml

$path = "/html/body/form[@id='main']/table/tbody/tr[4]/td/table/tbody/tr/td[1]/table/tbody/tr/td/table/tbody/tr/td[2]/table/tbody/tr[2]/td[2]" 

$xml = new SimpleXmlElement('http://www.coldwellbankerpbr.com/listings.aspx', null, true); 
$addresses = $xml->xpath($path); 

foreach($addresses as $address) { 
    echo $address; 
} 

XPath應該爲您提供列表地址的實際文本。但是你可以玩它並在XPath上閱讀,以獲得任何你想要的東西。實際上,你可以簡化這條路徑。我只是在Firefox的XPather擴展中生成以節省自己的一些麻煩:-)你也可以使用帶有DOMDocument的XPath,但它的使用稍微複雜一些。

+0

如果你打算投票,至少留下一個評論爲什麼......可能會在未來拯救我和其他人同樣的問題。 – prodigitalson 2010-08-06 03:49:41