如何從網站上刮取所有內容？

我開發的網站，有時客戶已經有網站，但需要他們完全改造，但大多數的內容和圖像需要保持不變。我正在尋找軟件，即使它花錢或是一個桌面應用程序，它可以輕鬆地讓我輸入一個URL並將所有內容都刮到我本地機器上的指定文件夾。任何幫助將非常感激。如何從網站上刮取所有內容？

來源

2011-04-25 cklingdesigns

文件>另存爲...> [網站，完整] - 它不會讓你每一頁，但它會讓你在當前頁面上的所有資產。 – coreyward 2011-04-25 15:00:27

[解析HTML的最佳方法]的可能的重複（http://stackoverflow.com/questions/3577641/best-methods-to-parse-html） – Gordon 2011-04-25 17:09:33

如果[Save Full Webpage]（http：// stackoverflow。 com/questions/1722433/save-full-webpage） – Gordon 2011-04-25 17:10:52

htttrack將爲你工作得很好。這是一個離線瀏覽器，將拉下網站。您可以根據需要進行配置。這顯然不會拉下PHP，因爲php是服務器端代碼。唯一可以拉下來的是html和javascript以及任何推送到瀏覽器的圖像。

來源

2011-04-25 14:59:43

非常感謝，這正是我一直在尋找的。 – cklingdesigns 2011-04-27 15:16:38

沒問題。感謝您的複選標記。 – 2011-04-27 17:12:51

file_put_contents('/some/directory/scrape_content.html', file_get_contents('http://google.com'));

爲慈善事業節省你的錢。

來源

2011-04-25 14:58:09

從內容上看，您的意思是整個頁面內容，因此您可以「保存爲......」整個頁面與大多數包含的媒體。

Firefox在工具 - >頁面信息 - >媒體中包含您可以下載的頁面上的所有媒體列表。

來源

2011-04-25 15:00:03

你可以做到這一點另存爲瀏覽器的選項去文件 - >保存網頁爲Firefox和所有的圖像和js將被保存在一個文件夾中

來源

2011-04-25 15:00:04 jimy

不要打擾PHP的像這個。您可以使用wget輕鬆獲取整個網站。但是，請注意，它不會爲你解析像CSS這樣的東西，因此它不會抓取任何通過（比如說）background-image: URL('/images/pic.jpg')引用的文件，但會阻止大多數其他所有文件。

來源

2011-04-25 15:01:12

幾年前我開始使用HTTrack，我很滿意。這似乎是爲了獲得我自己都看不到的頁面。

來源

2011-04-25 15:11:29

這個類可以幫你刮的內容：http://simplehtmldom.sourceforge.net/

來源

2011-04-25 15:11:46

推薦的[SimpleHtmlDom]（http://simplehtmldom.sourceforge.net/）的第三方替代方案實際上使用[DOM]（http://php.net/manual/en/book.dom.php）而不是字符串解析：[phpQuery]（http://code.google.com/p/phpquery/），[Zend_Dom]（http://framework.zend.com/manual/en/zend.dom.html），[QueryPath]（ http://querypath.org/）和[FluentDom]（http://www.fluentdom.org）。 – Gordon 2011-04-25 17:10:08

謝謝你的建議，戈登。真的很好。：d – 2011-04-26 21:31:36

你能湊夠網站與http://scrapy.org，並得到你想要的內容。

Scrapy是一個快速的高級屏幕抓取和網頁爬行框架，用於抓取網站並從其網頁中提取結構化數據。它可用於廣泛的用途，從數據挖掘到監視和自動化測試。

來源

2013-08-15 08:43:05 OguzKaganAslan

如何從網站上刮取所有內容？

回答

相關問題