使用bash打印所有pdf文件的鏈接

我正在編寫應該下載html頁面的bash腳本，並從該頁面提取所有pdf文件的鏈接。使用bash打印所有pdf文件的鏈接

我不得不說，我是新手來打擊所以現在我只能grep所有包含<a href的行，然後grep這些行有pdf字。

我可以barelly使用awk但我不知道怎麼寫正確的正則表達式來獲得<a href="*.pdf">只有文字，我想有*.pdf。

編輯：grep "<a href=\"*.pdf\""沒有找到pdfs的所有鏈接，這怎麼可能？例如找不到<a href="lorem ipsum.pdf">...</a>。

2017-10-16 Delfi

您應該閱讀有關正則表達式語法的手冊。 '*'（星號）和'.'（點號）有特殊的含義。對於你的'grep'命令，試試'''，而不是。 –

是這樣的嗎？ [根@木偶：0 NewRelic的-下文]＃$回聲代碼 [根@木偶：0 NewRelic的-下文]＃$回聲代碼| AWK「BEGIN {FS = 「\」」 } {打印$ 2}」 abc.pdf ..Once你grepped包含PDF和HREF線，嘗試對管道的awk 'BEGIN {FS = 「\」「} {打印$ 2}' –

不使用正則表達式，使用html解析器 – Sundeep

試試這一行到整個html字符串。爲我完美工作。

grep -io "<a[[:space:]]*href=\"[^\"]\+\.pdf\">" | awk 'BEGIN{FS="\""}{print $2}'

來源

2017-10-17 07:50:28 HappyStoic

使用bash打印所有pdf文件的鏈接

回答

相關問題