我是PHP新手。有人可以幫我弄清楚如何抓取單個html頁面並打印該頁面源代碼中的所有單詞嗎?單頁網頁爬蟲PHP
0
A
回答
1
$words = explode(" ", strip_tags(file_get_contents("www.example.com"));
function trim_and_print(&$value)
{
trim($value);
if(strlen($value > 3)
echo $value;
}
array_walk($words, 'trim_and_print');
這應該打印長度> 3.感謝的話moteutsch爲的file_get_contents
1
您的問題不是很清楚,但您需要下載頁面(使用cURL或PHP的文件功能)並以某種方式處理文件。下面是一個基本的解決方案:
echo strip_tags(file_get_contents('http://www.google.com'));
相關問題
- 1. PHP網絡爬蟲
- 2. PHP中的網頁爬蟲鏈接/頁面邏輯
- 3. 與Python 2.7.9分頁網絡爬蟲
- 4. 自動登錄谷歌網頁爬蟲
- 5. 使用python beautifulsoup進行網頁爬蟲
- 6. 減輕爬蟲網頁負載
- 7. 用飛鏢寫的網頁爬蟲
- 8. 網絡爬蟲
- 9. java網絡爬蟲
- 10. Python網絡爬蟲
- 11. 網絡爬蟲是否僅依靠主頁上的鏈接來進行爬網?
- 12. php爬蟲檢測
- 13. PHP與Python對於網絡爬蟲
- 14. 基於ajax的網站的php爬蟲?
- 15. 在android上的簡單網絡爬蟲?
- 16. 簡單的Python網絡爬蟲
- 17. 電子郵件鏈接被阻止的網頁爬蟲
- 18. 與ajax一起工作的網頁報廢/爬蟲
- 19. 我可以告訴網站爬蟲訪問某個頁面嗎?
- 20. 專門用於下載圖像和文件的網頁爬蟲
- 21. 有沒有Objective-C的網頁爬蟲框架?
- 22. 有沒有任何Java腳本的網頁爬蟲框架
- 23. 需要網絡爬蟲
- 24. 自動網絡爬蟲
- 25. 網絡爬蟲,反饋?
- 26. 網絡爬蟲不打印
- 27. 網絡爬蟲應用
- 28. 網絡爬蟲提取
- 29. 單頁應用程序Web爬蟲和SEO
- 30. Python簡單的網絡爬蟲錯誤(無限循環爬行)
你說的「打印所有詞語的該頁面的源代碼的意思「? – Omer 2011-06-09 22:35:47
我的意思是..解析通過頁面的正文和打印長度超過3的所有單詞.. – rkt 2011-06-09 22:38:27
定義單詞?你在談論文字中的單詞嗎?標籤?這很令人困惑 – Omer 2011-06-09 22:39:44