2009-12-29 113 views
12

我正在尋找方法來防止頁面各部分的索引。具體而言,在頁面上發表評論,因爲他們根據用戶寫的內容對條目進行了很多權衡。這使得網頁上的Google搜索返回了許多不相關的頁面。防止搜索引擎索引頁面上無關內容的方法

這裏是我考慮迄今的選項:使用JavaScript來阻止搜索引擎看到他們

1)負載意見。

2)使用用戶代理嗅探器不會輸出用於搜尋器的註釋。

3)使用搜索引擎特定的標記來隱藏頁面的某些部分。不過,這個解決方案看起來古怪。據稱,這可以做到防止雅虎!索引具體內容:

<div class="robots-nocontent"> 
This content will not be indexed! 
</div> 

這是一個非常醜陋的方式來做到這一點。我閱讀有關谷歌的解決方案,看起來更好,但我相信這只是與谷歌Search Appliance的工作原理(有人可以證實這一點?):

<!--googleoff: all--> 
This content will not be indexed! 
<!--googleon: all--> 

沒有人有其他方法來推薦?以上三項中的哪一項是最好的選擇?就我個人而言,我傾向於#2,因爲它可能不適用於所有的搜索引擎,所以很容易針對最大的搜索引擎。它不會對用戶造成任何負面影響,除非他們故意嘗試模仿網絡爬蟲。

+0

如何在iframe中顯示您的評論(基本上是另一個頁面)? – 2009-12-29 09:40:49

+0

如果該頁面被指定爲不被搜索引擎編入索引,它可能會起作用......但感覺就像是一種非常圓潤的做法......我從來不是iframe的粉絲。 – Blixt 2009-12-29 09:42:01

+0

「這會讓頁面上的Google搜索返回大量不相關的頁面。」 「Google在頁面上搜索」是什麼意思?當頁面與搜索查詢匹配時,該頁面應該顯示在Google搜索結果中 - 您是否擔心自己的頁面會顯示過頻? – 2009-12-29 09:45:36

回答

7

我會去你的JavaScript選項。它有兩個優點:

1)機器人看不到它 2)它會加快你的頁面加載時間(加載評論異步和不顯眼,例如通過jQuery)...頁面加載時間有一個被低估對您的搜索排名產生積極影響

+2

不再是真實的 - 主要的搜索引擎現在可以並且可以抓取javascript。 – 2013-07-04 14:21:14

+1

只要你加載註釋異步,這必須要走的路。正如Bob所說,很多機器人(包括谷歌的)都運行一些有限的JavaScript。但我敢打賭,他們不會做ajax並將結果索引爲頁面的一部分。 – 2013-07-13 13:12:42

2

googleoff和googleon是Google Search Appliance,這是一個搜索引擎,他們賣給需要搜索自己內部文檔的公司。這對於實時的Google網站無效。

我認爲數字1實際上是最好的解決方案。搜索引擎不喜歡當你給他們其他材料,而不是你給你的用戶,所以2號可能會讓你從搜索列表中完全退出。

1

這是我聽說的第一個搜索引擎提供的方法,通知他們頁面的一部分是不相關的。

Google擁有一項功能,可供網站管理員聲明網站的部分內容供網頁搜索引擎在搜尋時用於查找網頁。

  1. http://www.google.com/webmasters/
  2. http://www.sitemaps.org/protocol.php

你也許可以通過在HTML的HEAD部分使用META標籤(一個或多個)指定最相關的關鍵字相對去強調網頁上的一些事情頁面。我認爲這更符合用於首先構建搜索引擎的工程哲學。

看看Google's Search Engine Optimization tips。他們清楚地說明他們會如何並且不會讓您影響他們如何爲您的網站編制索引。

3

Javascript是一個選項,但引擎在閱讀javascript方面越來越好,說實話我認爲你的想法太多了,引擎喜歡獨特的內容,每頁上的內容越多越好,如果用戶提供它......它是聖盃。

僅僅因爲你的評論者在你的烤麪包機評論中提到了星球大戰,並不意味着你不會爲烤麪包機模型而排名,這隻意味着你可能會爲星球大戰烤麪包機排名。

另一個想法是,你只能向登錄的人顯示評論,collegehumor也是這樣,我相信他們會顯示一篇文章的評論數量,但你必須登錄才能看到它們。

+0

我不認爲你看到評論/頁面內容比率有多大。例如,如果您要搜索「如何註冊」,則在實際獲取包含有關如何註冊信息的頁面之前,您會在不相關的頁面上獲得大量評論點擊量。僅僅是因爲在一些頁面的數百條評論中,其中有些評論會談論註冊。 – Blixt 2010-01-02 08:59:14

+0

是啊我現在看到了,編輯我的原始答案 – 2010-01-02 10:08:23