2011-03-19 78 views
-3

我想做一些困難。我想做一個爬蟲,除了從鏈接將下載也網站的源代碼。之後,我想做一個程序如果語句存在(例如,如果有一個標題不包括此網站),它將搜索每個網站的源代碼。網絡爬蟲,它檢索網站源代碼

+1

這是不可能的,除非你的意思是*源HTML * – BrokenGlass 2011-03-19 19:51:15

+0

你的問題不是非常具體,並已在本網站上爲大多數常用語言回答。請記住使用搜索功能,所有的網頁爬蟲在某個時候檢索頁面的「源代碼」(html)。這是唯一需要回收的東西。 – Mat 2011-03-19 19:51:52

回答

0

您無法從腳本讀取服務器代碼。您只能抓取HTML或其他任何在客戶端上運行的內容(即javascript)。

+0

是的,我的意思是html – akageek 2011-03-19 19:55:10

+1

html中沒有「if」:)抓取html雖然是每個抓取工具的作用,並且這很容易做到。 – Spyros 2011-03-19 19:57:10

+0

你能幫助我嗎? – akageek 2011-03-19 20:05:08