2011-06-28 40 views
4

我的網站上的每篇博客文章 - http://www.correlated.org - 已存檔在自己的固定鏈接網址中。避免在Google上存檔重複內容的歸檔頁面?

在這些存檔頁面中,我不僅要顯示存檔文章,還要顯示之前發佈的10篇文章,以便人們可以更好地瞭解博客提供的內容類型。

我擔心的是Google和其他搜索引擎會認爲那些其他的帖子是重複的內容,因爲每個帖子都會出現在多個頁面上。

在我的另一個博客 - http://coding.pressbin.com - 我試圖通過加載較早的帖子作爲AJAX調用,但我想知道是否有一個更簡單的方法。

有沒有什麼辦法可以向搜索引擎發出信號,說明某個頁面的特定部分不應被編入索引?

如果沒有,是否有比AJAX調用更簡單的方法來做我想做的事情?

+0

在我們展開啓動和歸檔頁面上的文章的網站上遇到同樣的問題。我們不使用hashbangs,而是在擴展內容時使用history.pushState – snobojohan

+0

可能的重複:http://stackoverflow.com/questions/3207211/is-there-a-way-to-make-robots-ignore-certain-text –

+0

不是你正在尋找的東西,但它可能更清晰的用戶和搜索引擎,而不是發佈完整的其他文章,你只需發佈他們的標題和一個簡短的摘錄並鏈接到他們。 –

回答

5

警告:這並沒有在野外測試,但根據我的谷歌網站管理員中心博客的閱讀和schema.org文檔應該工作。反正...


這似乎是一個很好的用例使用microdata構建您的內容。這包括標記了自己的內容的類型ArticleRich Snippet,像這樣:

<div itemscope itemtype="http://schema.org/Article" class="item first"> 
     <h3 itemprop="name">August 13's correlation</h3>   
     <p itemprop="description" class="stat">In general, 27 percent of people have never had any wisdom teeth extracted. But among those who describe themselves as pessimists, 38 percent haven't had wisdom teeth extracted.</p> 
     <p class="info">Based on a survey of 222 people who haven't had wisdom teeth extracted and 576 people in general.</p> 
     <p class="social"><a itemprop="url" href="http://www.correlated.org/153">Link to this statistic</a></p> 
    </div> 

注意使用的itemscope項目類型itemprop定義頁面上的每一篇文章。

現在,根據schema.org,這是由谷歌,雅虎和Bing支持,搜索引擎應該尊重由itemprop="url"上述規範網址:

規範引用

通常情況下,鏈接是使用元素指定的。例如, 下面的HTML鏈接到 Rye的圖書捕手的維基百科頁面。

<div itemscope itemtype="http://schema.org/Book"> 
    <span itemprop="name">The Catcher in the Rye</span>— 
    by <span itemprop="author">J.D. Salinger</a> 
    Here is the book's <a itemprop="url" 

HREF = 「http://en.wikipedia.org/wiki/The_Catcher_in_the_Rye」>維基百科 頁。

因此,當以這種方式標記的,谷歌應該能夠正確地歸因於這一塊的內容屬於其規範的網址和重量在其相應的搜索結果頁面。

標記完內容後,您可以使用Rich Snippets testing tool對其進行測試,這應該可以讓您很好地指出在您將網頁投入生產之前,Google的哪些內容。


p.s. 最重要的你可以做的事情,以避免重複的內容處罰是修復永久鏈接頁面上的標題。目前他們全部閱讀'相關 - 發現令人驚訝的相關性',這將導致您的排名大受打擊。

+0

Iteressting。將嘗試與規範itemprop – snobojohan

+0

postscript - >他們會因爲相關/相關性的重複「受到打擊」? – Kieran

+0

不@ @基蘭 - 他們會受到歡迎,因爲每個固定鏈接頁面的標題都是一樣的。標題應該對每個頁面都是唯一的。請在此處查看重複的標題:http://www.correlated.org/153,http://www.correlated.org/153 – Ciaran

0

我害怕,但我認爲不可能告訴搜索引擎一個指定的網頁不應被編入索引(例如HTML源代碼中的div)。解決方案是使用iframe作爲你不需要搜索引擎索引的內容,所以我將使用帶適當標籤Disallow的robot.text文件來拒絕訪問鏈接到Iframe的特定文件。

0

您無法告知Google忽略網頁的某些部分,但您可以通過搜索引擎無法找到該內容的方式投放該內容。您可以將該內容放入或通過JavaScript提供。

我不喜歡這兩種方法,因爲他們是黑客。你最好的選擇是完全阻止來自搜索引擎的頁面,因爲所有的內容都是重複的。您可以通過以下幾種方式實現:

  1. 使用robots.txt阻止您的檔案。如果您的存檔位於其自己的目錄中,則可以輕鬆地阻止整個目錄。您還可以阻止單個文件並使用通配符來匹配模式。

  2. 使用<META NAME="ROBOTS" CONTENT="noindex">標記阻止每個頁面被索引。

  3. 使用X-Robots-Tag: noindex HTTP標頭阻止每個頁面被搜索引擎編入索引。這與使用`標籤相同,儘管這可以更容易實現,因爲您可以在.htaccess文件中使用它並將其應用於整個目錄。