2010-08-04 73 views
1

我想獲取一個站點鏈接到的所有URL(在同一個域中),而不需要像wget那樣下載所有的內容。有沒有辦法告訴wget只列出它將下載的鏈接?如何收集沒有內容的網站上的所有鏈接?

如果有人能想出更好的解決方案,我將使用這個小背景:我試圖構建一個robots.txt文件,它排除了所有以p [4-9]結尾的文件, .html但robots.txt不支持正則表達式。因此,我試圖獲取所有鏈接,然後針對它們運行正則表達式,然後將結果放入robots.txt中。有任何想法嗎?

+0

你怎麼能得到沒有得到內容的鏈接?會添加'nofollow'鏈接幫助?示例:http://www.seoconsultants.com/html/links/nofollow – slugster 2010-08-04 13:39:27

+0

我知道我需要瀏覽一下內容,但我不希望在完成瀏覽後保存內容。不幸的是,我無法添加nofollow,因爲大多數網站正在使用我無法訪問的第三方應用。 – Luke 2010-08-04 14:18:45

回答

相關問題