2011-06-09 156 views
0

我是PHP新手。有人可以幫我弄清楚如何抓取單個html頁面並打印該頁面源代碼中的所有單詞嗎?單頁網頁爬蟲PHP

+0

你說的「打印所有詞語的該頁面的源代碼的意思「? – Omer 2011-06-09 22:35:47

+0

我的意思是..解析通過頁面的正文和打印長度超過3的所有單詞.. – rkt 2011-06-09 22:38:27

+0

定義單詞?你在談論文字中的單詞嗎?標籤?這很令人困惑 – Omer 2011-06-09 22:39:44

回答

1
$words = explode(" ", strip_tags(file_get_contents("www.example.com")); 
function trim_and_print(&$value) 
{ 
    trim($value); 
    if(strlen($value > 3) 
     echo $value; 
} 

array_walk($words, 'trim_and_print'); 

這應該打印長度> 3.感謝的話moteutsch爲的file_get_contents

+1

爲什麼不使用'file_get_contents'? – moteutsch 2011-06-09 22:43:25

+0

當我使用echo strip_tags($ buffer)替換行echo $ buffer時;我得到空白頁作爲輸出。但我需要源文本中的單詞作爲輸出。 – rkt 2011-06-09 22:58:17

+0

瞭解它..謝謝..問題是與網址:)我改變了網址,它的工作.. – rkt 2011-06-09 22:59:52

1

您的問題不是很清楚,但您需要下載頁面(使用cURL或PHP的文件功能)並以某種方式處理文件。下面是一個基本的解決方案:

echo strip_tags(file_get_contents('http://www.google.com'));