單頁網頁爬蟲PHP

我是PHP新手。有人可以幫我弄清楚如何抓取單個html頁面並打印該頁面源代碼中的所有單詞嗎？單頁網頁爬蟲PHP

2011-06-09 rkt

你說的「打印所有詞語的該頁面的源代碼的意思「？ – Omer 2011-06-09 22:35:47

我的意思是..解析通過頁面的正文和打印長度超過3的所有單詞.. – rkt 2011-06-09 22:38:27

定義單詞？你在談論文字中的單詞嗎？標籤？這很令人困惑 – Omer 2011-06-09 22:39:44

$words = explode(" ", strip_tags(file_get_contents("www.example.com")); 
function trim_and_print(&$value) 
{ 
    trim($value); 
    if(strlen($value > 3) 
     echo $value; 
} 

array_walk($words, 'trim_and_print');

這應該打印長度> 3.感謝的話moteutsch爲的file_get_contents

來源

2011-06-09 22:41:14 Nate

爲什麼不使用'file_get_contents'？ – moteutsch 2011-06-09 22:43:25

當我使用echo strip_tags（$ buffer）替換行echo $ buffer時;我得到空白頁作爲輸出。但我需要源文本中的單詞作爲輸出。 – rkt 2011-06-09 22:58:17

瞭解它..謝謝..問題是與網址:)我改變了網址，它的工作.. – rkt 2011-06-09 22:59:52

您的問題不是很清楚，但您需要下載頁面（使用cURL或PHP的文件功能）並以某種方式處理文件。下面是一個基本的解決方案：

echo strip_tags(file_get_contents('http://www.google.com'));

來源

2011-06-09 22:38:49 moteutsch

單頁網頁爬蟲PHP

回答

相關問題