我知道Google Search Appliance可以訪問這些信息(因爲這是PageRank算法的一個因素),但是有沒有辦法從爬蟲設備中導出這些信息?Google Search Appliance能否生成報告,顯示您網站上的鏈接已損壞?
外部工具不起作用,因爲大部分內容用於公司內部網。
我知道Google Search Appliance可以訪問這些信息(因爲這是PageRank算法的一個因素),但是有沒有辦法從爬蟲設備中導出這些信息?Google Search Appliance能否生成報告,顯示您網站上的鏈接已損壞?
外部工具不起作用,因爲大部分內容用於公司內部網。
一款名爲Xenu的免費工具成爲了這項任務的首選武器。 http://home.snafu.de/tilman/xenulink.html#Download
可能是Google上可用的東西,但我從未檢查過。我通常使用link checker provided by W3C。 W3C還可以檢測重定向,如果您的服務器通過重定向而不是返回404狀態代碼來處理404,那麼這很有用。
您可以使用Google Webmaster Tools查看您網站上的損壞鏈接等。
這不會顯示你到外部網站的斷開鏈接。
爲什麼不分析你的網絡服務器日誌並尋找所有的404頁面?這更有意義,更可靠。
看來這是不可能的。在「狀態和報告」>「爬網診斷」下,有 可用的兩種報告類型:目錄深入查看「樹視圖」 和「列表視圖」時的100個URL。有些人嘗試創建程序來瀏覽列表視圖 ,但這似乎在數千個URL後失敗。
我的建議是使用您的服務器日誌來代替。 請確保您的網絡服務器 上已啓用404和引薦來源網址記錄,因爲您可能需要更正包含斷開鏈接的頁面。
然後,您可以使用log file analyser來生成斷開的鏈接報告。
要創建監視您的已損壞的鏈接有效,長期這樣,你可能想建立一個cron作業做到以下幾點:
grep
提取包含從服務器404項線日誌文件。sed
刪除每行中請求的網址和引薦來源網址以外的所有內容。sort
和uniq
命令刪除列表中的重複項。我知道這是一個老問題,但您可以使用GSA管理控制檯上的導出URL功能,然後查找狀態爲not_found的URL。這會顯示GSA發現的所有網址,但在嘗試抓取它們時返回404。
我們正在將700,000頁移動到一個新的CMS系統,並且服務器日誌只抓住人們正在主動點擊的頁面。 – 2009-01-06 22:13:33