2011-04-25 99 views
2

我開發的網站,有時客戶已經有網站,但需要他們完全改造,但大多數的內容和圖像需要保持不變。我正在尋找軟件,即使它花錢或是一個桌面應用程序,它可以輕鬆地讓我輸入一個URL並將所有內容都刮到我本地機器上的指定文件夾。任何幫助將非常感激。如何從網站上刮取所有內容?

+1

文件>另存爲...> [網站,完整] - 它不會讓你每一頁,但它會讓你在當前頁面上的所有資產。 – coreyward 2011-04-25 15:00:27

+0

[解析HTML的最佳方法]的可能的重複(http://stackoverflow.com/questions/3577641/best-methods-to-parse-html) – Gordon 2011-04-25 17:09:33

+0

如果[Save Full Webpage](http:// stackoverflow。 com/questions/1722433/save-full-webpage) – Gordon 2011-04-25 17:10:52

回答

7

htttrack將爲你工作得很好。這是一個離線瀏覽器,將拉下網站。您可以根據需要進行配置。這顯然不會拉下PHP,因爲php是服務器端代碼。唯一可以拉下來的是html和javascript以及任何推送到瀏覽器的圖像。

+0

非常感謝,這正是我一直在尋找的。 – cklingdesigns 2011-04-27 15:16:38

+0

沒問題。感謝您的複選標記。 – 2011-04-27 17:12:51

5
file_put_contents('/some/directory/scrape_content.html', file_get_contents('http://google.com')); 

爲慈善事業節省你的錢。

2

從內容上看,您的意思是整個頁面內容,因此您可以「保存爲......」整個頁面與大多數包含的媒體。

Firefox在工具 - >頁面信息 - >媒體中包含您可以下載的頁面上的所有媒體列表。

0

你可以做到這一點另存爲瀏覽器的選項去文件 - >保存網頁爲Firefox和所有的圖像和js將被保存在一個文件夾中

1

不要打擾PHP的像這個。您可以使用wget輕鬆獲取整個網站。但是,請注意,它不會爲你解析像CSS這樣的東西,因此它不會抓取任何通過(比如說)background-image: URL('/images/pic.jpg')引用的文件,但會阻止大多數其他所有文件。

0

幾年前我開始使用HTTrack,我很滿意。這似乎是爲了獲得我自己都看不到的頁面。

1

這個類可以幫你刮的內容:http://simplehtmldom.sourceforge.net/

+0

推薦的[SimpleHtmlDom](http://simplehtmldom.sourceforge.net/)的第三方替代方案實際上使用[DOM](http://php.net/manual/en/book.dom.php)而不是字符串解析:[phpQuery](http://code.google.com/p/phpquery/),[Zend_Dom](http://framework.zend.com/manual/en/zend.dom.html),[QueryPath]( http://querypath.org/)和[FluentDom](http://www.fluentdom.org)。 – Gordon 2011-04-25 17:10:08

+0

謝謝你的建議,戈登。真的很好。 :d – 2011-04-26 21:31:36

0

你能湊夠網站與http://scrapy.org,並得到你想要的內容。

Scrapy是一個快速的高級屏幕抓取和網頁爬行框架,用於抓取網站並從其網頁中提取結構化數據。它可用於廣泛的用途,從數據挖掘到監視和自動化測試。