2011-11-02 104 views
0

iam嘗試使用php curl開發內容抓取器,我需要從url中檢索內容,例如:http://mashable.com/2011/10/31/google-reader-backlash-sharebros-petition/並將其存儲在csv文件中。例如:如果我輸入一個url來提取數據,它應該將標題,內容,標籤存儲在csv中,然後爲下一個url存儲。他們的任何片段是這樣的嗎?通過php curl抓取內容

下面的代碼生成所有內容,我需要在標題中明確稱,帖子

<?php 
$homepage = file_get_contents('http://mashable.com/2011/10/28/occupy-wall-street-donations/'); 
echo strip_tags($homepage); 
?> 

回答

1

的內容有很多方法。事實上,你想分析一個HTML文件。 strip_tags是一種方式,但是很髒。

我建議你爲此使用DOMDocument類(在so.com上應該有很多其他的方法)。其餘的是標準的PHP,寫作和從CSV閱讀是有據可查的上php.net

示例獲取鏈接在網站上(不是我): http://php.net/manual/en/class.domdocument.php#95894

+0

@snoopy感謝輸入,我會如果你爲我開始粘貼任何代碼就會很高興 – Ezhil

+0

剛剛添加了一個例子,也許這會有所幫助。 – sascha