2012-03-18 104 views
0

我想從表格的第一列中獲取名稱和網址http://www.pferd-aktuell.de/fn-service/pferdebranchenbuch/kategorie-uebersicht/13/FN-Vereine,然後遍歷NEXT按鈕以從所有可用網頁中獲取名稱及其URL的所有出現。我試過這樣的東西,它不輸出任何東西。PHP SimpleHTMLDom提取

<?php 

include('simplehtmldom/simple_html_dom.php'); 
ini_set('max_execution_time', 1800); 

$url = 'http://www.pferd-aktuell.de/fn-service/pferdebranchenbuch/kategorie-uebersicht/13/FN-Vereine'; 
$html = file_get_html($url); 
$file = 'Titels.txt'; 

    if (!$fp = fopen($file, 'a+')) { 
     echo "Cannot open file ($file)"; 
     exit; 
     } 
    else { 
     for ($i=1; $i<=25; $i=$i+1) 
     { 
      $ret = $html->find('td[class]="withBorder bold"', $i); 
      fwrite($fp, $ret->plaintext."\n"); 
     } 
    } 

}

提取Titel的和網址後,我計劃通過各那些網址導航,並能夠從那裏太(像的Ort,電子郵件等)提取一些div。

任何示例代碼讓我開始?請:)

+0

從你上面發佈的代碼中,你肯定是在正確的軌道上。找到「下一步」按鈕指向的網址,並將其傳遞給可從網頁中提取所需內容的功能。 – xbonez 2012-03-18 05:37:59

回答

0

這一發現()調用也許應該是:

$ret = $html->find('td[class="withBorder bold"]', $i); 
               ^---note the new location 

書面,你正在尋找這HAS任何TD類屬性,其次是荒謬= html元素。

+0

好吧它現在工作:)但事情是......它玷污了特殊的德國字符。像這些BERLINER KLEINPFERDEVEREIN E.V. FürZucht u。 Sportm,GlashütterPSV OberFr.dorf e。五,我們如何保留德文字符? – 2012-03-18 05:49:55

+0

只是注意到它也不會返回所有25,但只是11.我不知道爲什麼。仍然在檢查...還有,我該如何處理分頁? – 2012-03-18 05:54:58

+0

在輸出中獲得'Ã'意味着您已經將UTF-8文本顯示爲其他一些字符集,可能是iso-8859-1。確保您的整個渲染管道設置爲utf-8。 – 2012-03-18 05:56:17