2017-02-12 85 views
0

我必須下載所有站點內容,然後解析下載的文件夾以查找「* .pdf」文件。我下載的網站使用wget -r --no-parent http://www.example.com/但問題是,有時鏈接看起來這Wget文件格式

http://www.foodmanufuture.eu/dpubs?f=K20 

和dowloaded PDF下載名稱爲「dpubs?F = K20」和文件格式沒有指定,它看起來並不像這樣「dpubs?f = K20.pdf」,有沒有辦法檢查我在這個文件夾中有多少pdf文件?

回答

0

你可以使用命令

file filename 

像這樣:

file pdfurl-guide 
pdfurl-guide: PDF document, version 1.5 

你可以使用:

file * 

確切地知道哪些文件的文件夾中的PDF文件

1

你有沒有試過--content-disposition的標誌?從手冊頁:

如果將此設置爲on,則啓用對「Content-Disposition」標頭的實驗性(非全功能)支持。這可能會導致額外往返服務器的「HEAD」請求,並且已知會遇到一些錯誤,這就是爲什麼默認情況下當前未啓用它的原因。 此選項對於某些使用「Content-Disposition」標頭的文件下載CGI程序來描述下載文件的名稱應該是

因此,它試圖詢問服務器的文件名。我嘗試了你給的URL,它似乎工作。

+0

太棒了!謝謝! –