2011-01-14 30 views
0

有權這樣做。Ubuntu:如何從多個網站下載字段?

我有一個約250頁的網站,我需要下載'產品說明'和'產品圖片'。我該怎麼做?我想將數據輸出到CSV中,以便將其放入數據庫表中。有人能指點我一個很好的教程來開始這個嗎?我應該使用cURL,對吧?

到目前爲止,我得到這個從另一個計算器頁面,How do I transfer wget output to a file or DB?

curl somesite.com | grep sed etc | sed -e '/^(.*)/INSERT tableName (columnName) VALUES (\1)/' |psql dbname 

我開了這一點,這很爛,拿到圖片:通過觀看這部影片

#!/bin/bash 

lynx --source "www.site.com"|cut -d\" -f8|grep jpg|while read image 
do 
wget "www.site.com/$image" 
done 

http://www.youtube.com/watch?v=dMXzoHTTvi0

+0

如果您有權限,你會不會有本地文件(即不需要訪問他們作爲捲曲的網站?) – Fosco 2011-01-14 18:59:46

+2

如果你想要繁瑣的代碼,然後是錯誤的捲曲API確實比較喜歡PHP的HttpRequest,PEAR Http_Request或Zend_Http。如果是一次性下載,簡單的`wget -p http:// example.org/prodcuts/*`可能會更容易。 – mario 2011-01-14 19:01:51

回答