2017-02-21 31 views
0

我正在抓取特定網站的特定鏈接,我將其保存到我的$ url_results數組中。但要排除添加鏈接到陣列如果集羣,與班上列表items__item,包括兒童安全>兒童安全>子跨度帶班列表items__item__notice的。如何使用Simple HTML DOM和cURL根據具有特定類的子項排除刮取結果?

集羣我刮:

<li> 
    <a href="" data-lpurl=""> <!--The href I am scraping--> 
     <span class="list-items__item__position"></span> 
     <div class="list-items__item__title"> 
      <span class="list-items__item__notice"> <!--I don't want to add to my array if this span is present--> 
      </span> 
     </div> 
    </a> 
</li> 

我的PHP刮功能:

$items = $html->find('li[class=list-items__item]'); 
foreach($items as $post) { 
    $url_results[] = $url . ($post->children(0)->href); 
} 

我使用Simple HTML DOM和捲曲刮。

+0

該類屬性並不完全正確。 – pguardiario

+0

這是被刮掉的數據,所以我很遺憾沒有任何控制他們使用的類。 – user2304993

+0

不,我的意思是它不符合html中的類 – pguardiario

回答

0

我正在添加我提出的解決方案,以便它可以幫助其他人解決類似問題。

我加入了一個if句解決了這個問題,檢查標籤是否是空的,如果是這樣,將href添加到我的數組,如果沒有,什麼都不做,如下圖所示:

foreach($items as $post) { 
    if (empty($post->children(0)->children(1)->children(0)->plaintext)) { 
     $url_results[] = $url . ($post->children(0)->href); 
    } 
    else {} 
} 
相關問題