2017-10-16 38 views
0

我正在編寫應該下載html頁面的bash腳本,並從該頁面提取所有pdf文件的鏈接。使用bash打印所有pdf文件的鏈接

我不得不說,我是新手來打擊所以現在我只能grep所有包含<a href的行,然後grep這些行有pdf字。

我可以barelly使用awk但我不知道怎麼寫正確的正則表達式來獲得<a href="*.pdf">只有文字,我想有*.pdf

編輯:grep "<a href=\"*.pdf\""沒有找到pdfs的所有鏈接,這怎麼可能?例如找不到<a href="lorem ipsum.pdf">...</a>

回答

1

試試這一行到整個html字符串。爲我完美工作。

grep -io "<a[[:space:]]*href=\"[^\"]\+\.pdf\">" | awk 'BEGIN{FS="\""}{print $2}'