如何收集沒有內容的網站上的所有鏈接？

我想獲取一個站點鏈接到的所有URL（在同一個域中），而不需要像wget那樣下載所有的內容。有沒有辦法告訴wget只列出它將下載的鏈接？如何收集沒有內容的網站上的所有鏈接？

如果有人能想出更好的解決方案，我將使用這個小背景：我試圖構建一個robots.txt文件，它排除了所有以p [4-9]結尾的文件， .html但robots.txt不支持正則表達式。因此，我試圖獲取所有鏈接，然後針對它們運行正則表達式，然後將結果放入robots.txt中。有任何想法嗎？

2010-08-04 Luke

你怎麼能得到沒有得到內容的鏈接？會添加'nofollow'鏈接幫助？示例：http://www.seoconsultants.com/html/links/nofollow – slugster 2010-08-04 13:39:27

我知道我需要瀏覽一下內容，但我不希望在完成瀏覽後保存內容。不幸的是，我無法添加nofollow，因爲大多數網站正在使用我無法訪問的第三方應用。 – Luke 2010-08-04 14:18:45

我的推薦：將wget和gawk結合成一個非常小的shell腳本。

有AWK的維基百科上的一個很好的概述：http://en.wikipedia.org/wiki/AWK

2010-08-04 13:19:38 Nick

回答