2011-12-07 18 views
2

當Google的蜘蛛抓取我的一個網站時,它們將選擇列表中的數據作爲頁面數據提取。我完全理解爲什麼會發生這種情況,但問題是,它能以任何方式阻止嗎?我不想阻止整個網頁被抓取,而只是選擇列表數據。來自Google Bot的阻止選擇列表數據

問題如下:在搜索Google時,選擇列表數據顯示爲頁面摘要而不是內容。描述標籤專門用於幫助搜索引擎優化,併爲潛在網站訪問者提供有用的信息,但其預期功能尚未實施。

檢查該樣品的情況下https://www.google.com/search?q=alaskan klee kai site%3Awiki-pet.com

這是傷害在網站上的搜索性能的有效性,因爲超過1頁被示出在搜索結果中的相同數據。有超過200頁與完全相同的選擇列表允許輕鬆導航。選擇列表不會被刪除。

我有一個想法是有有載填寫()的內容腳本的頁面有

完全加載後..任何想法?

[編輯]

看看搜索結果#3 & 5含有這樣的文字:「全犬種 - - - ,購買affenpinscher,阿富汗獵犬,萬能梗,Akbash犬,秋田,Alapaha藍血鬥牛犬,阿拉斯加克利凱,阿拉斯加......「

這是直接從關聯頁面上的選擇列表內容。

+0

我發現了兩種可能的解決方案,其中最好看起來粗略。 1)Yahoo的class =「robots-nocontent」的加入2)Google有一個可用於廣告的<! - google_ad_section_start(weight = ignore) - >標籤。 – BizLab

+0

對於任何未來遇到此問題的人,我會建議加載的項目,你不想由蜘蛛在頁面加載完成後使用JS爬行(一種「延遲加載」)。 – BizLab

回答

0

在服務器上,檢查用戶代理是否匹配Googlebot(或其他流行的蜘蛛,如bingbot),並且不渲染該內容。

+0

據我所知,你不能從機器人中排除某些DIV的內容。通過robots.txt很容易排除整個頁面,但這是不可取的。 – BizLab

+0

@BizLab:是的,你可以。只需在'if'中檢查'User-Agent'標題。 – SLaks

+0

你有任何示例代碼? – BizLab