2010-12-18 87 views
-1

我需要它出現在這個頁面上的每個圖像的鏡像:如何使用wget從「wikimedia搜索結果」下載圖片?

http://commons.wikimedia.org/w/index.php?title=Special:Search&ns0=1&ns6=1&ns12=1&ns14=1&ns100=1&ns106=1&redirs=0&search=buitenzorg&limit=900&offset=0

鏡結果應該給我們的全尺寸圖像,而不是縮略圖。 用wget做這件事的最好方法是什麼?

UPDATE:。
對不起,讓你在過去&死鏈接導致此線程否決:( 我更新下選中的回答解決

+0

不要添加「更新」部分,而要回答自己的問題並將其標記爲已接受。 – Greg 2011-07-14 04:11:15

回答

0

在stackoverflow編輯器中編寫所有腳本非常困難,您可以在下面的地址找到腳本。該腳本僅下載第一頁上的所有圖像,您可以修改它以在另一個頁面中自動下載過程。

http://pastebin.com/xuPaqxKW

0

正則表達式是你的朋友,我的朋友! 使用貓,egrep的和wget你會得到這個任務完成的相當快 下載的搜索結果URI wget的,然後運行

cat DownloadedSearchResults.html | egrep (?<=class="searchResultImage".+href=").+?\.jpg/ 

這應該給你可以通過http://commons.wikimedia.org/指向每個圖片的網頁。現在,這些結果中的每一個,下載並運行程序:

cat DownloadedSearchResult.jpg | egrep (?<=class="fullImageLink".*href=").+?\.jpg 

這應該給你一個直接鏈接到可用於該圖像的最高分辨率。

我希望你的bash知識能夠完成剩下的工作。祝你好運。

+0

兄弟,「意想不到的(期待」)「)」當消耗egrep模式時出現。你能糾正這個嗎?謝謝 – Brain90 2010-12-18 14:52:57

+0

我不知道egrep如何處理正則表達式,也許你必須指定任何類型的參數?嘗試人egrep看到 – Machinarius 2010-12-18 16:55:32