2011-11-03 73 views
8

這幾天我遇到了幾個Google搜索結果,其中包含與我的搜索詞完全匹配的鏈接的網站。這些網站如何動態地改變他們的內容,或者他們如何愚弄谷歌爲我的關鍵詞索引他們的頁面。我已閱讀關於內容農場,但這似乎並不是一個正確的答案。有人能讓我知道這種技術被稱爲什麼嗎?我會試着更多地瞭解它。如何在搜索引擎的結果中顯示有假鏈接的網站

回答

8

我的理解是,讓Google或任何其他索引引擎的唯一方法是讓機器人實際抓取您的網站並生成結果。很顯然,谷歌可以抓取動態網站:

但是我覺得這是關於你的問題的進化而不是革命性的變化。

我認爲是幕後發生的事情是這些東西的組合:

  • 內容索引
  • 準備指數
  • 用戶提交的內容
  • 引薦搜索更新

我會盡力在一個銷售音樂的虛構網站上解釋這些問題 - 你們有很多例子可供比較重新體驗。它當然會在example.com域上。

內容索引

顯然,作爲要提供一些站點,你實際上有一些內容。通常,你以某種方式將這些內容分組。假設我們的音樂網站通過不同的類別可以組內容:

  • 作者
  • 音樂流派
  • 用戶提交
  • 內容分級

每這些都可以抽象地表示爲標籤。例如,我們的網站可以選擇使用example.com/tags/eagles來表示Eagles或example.com/tags/rock來表示所有搖滾樂隊。谷歌將能夠對這些進行索引,所以任何潛在的搜索都可能產生到我們網站的鏈接。

準備指數

準備指數類似,但是是一個通用的指標,而不是真正的內容。這可以通過幾種方法制備,如:

  • 拿字典和(可能使用搜索引擎提供的鏈接添加來自Web的所有單詞
  • 抓取幾百萬頁!),並從那裏經常重複的短語
  • 免費論壇
  • 抓取內容
  • 使用Wikipeda
  • 獲得從免費提供書籍,如那些來自Project Gutenberg

文本我們的網站會,例如,獲得以任何方式與音樂相關的文字中的任何單詞,並使標籤與之前的相似。例如。只需抓取維基百科上的Rock music頁面,就可以獲得大量標籤。

用戶提交的內容

這是什麼,通常是後您的網站是啓動和運行。假設我們在我們的網站上放置了一個搜索框,然後用戶進入並輸入「搖滾音樂」。呃,我們已經知道了,那麼搜索沒什麼好處。但是,假設我們遍歷我們的Web服務器日誌並查看一些搜索langeleik。現在,這將是我們以前可能沒有編入索引的東西。酷,只是在我們的網站上生成另一個標籤。

顯然,Google不知道 - 因此我們在sitemap中創建了一個條目,它在另一個Googlebot抓取之後在那裏。當用戶在Google上搜索「langeleik」時,其中一個鏈接可能是指向example.com/tags/langeleik的鏈接。

還有其他可能更有價值的用戶輸入形式 - 評論,論壇帖子等。因此,有許多通用論壇除了主辦論壇之外沒有其他目的。這是一個很好的數據源,你可以免費獲得新的內容。

最後,這一切都應該去你的網站sitemap。你可以有巨大的Sitemaps,看到這一點:

介紹人

的最後一件事是推薦。在您的網站啓動並運行後,您的一些Google搜索將直接發送給您。這時候,你可以把HTTP引用頭的優勢(是的,這是一個拼寫錯誤 - 檢查出來的Wikipedia),看到這一點:

注意,谷歌搜索是兩個:

  • 不完整
  • 模糊

因此,您可以搜索上面的「langeleik」,但其中一些鏈接的標題爲例如。 「Langeleik and Harpe」。沒有什麼不尋常的,但也要注意相反 - 如果您搜索「langeleik and harpe」,它不僅會找到所有條款都包含條款的頁面,而且還會找到包含其中一個或另一個的頁面。如果我們知道harpe,而不是langeleik,並且有人搜索「langeleik and harpe」,我們將通過HTTP Referer頭部獲得q參數,如q=langeleik+harpe。酷 - 如果我們想要的話,只需添加一個詞來添加到我們的站點地圖。

至於模糊,注意,當你搜索「鷹」,您可以通過NFL球隊得到一切從鳥類到一個搖滾樂隊。因此,儘管我們是一個音樂網站,但我們可能會擴大我們的視野(如果需要),以最新的NFL新聞 - 這對某些網站來說是完全不相關的,非常有用的。

結論 - 這是一種錯覺

我認爲所有這些組合非常豐富的網站地圖的建築源。使用上述技術,您可以非常輕鬆地生成數百萬個獨特標籤。因此,您可以在example.com/tags找到您輸入的「任何內容」。

但是,您必須注意,這只是一個錯覺。例如,如果您搜索「ertfghedctgb」(很容易在常規QWERTY鍵盤上輸入 - ert + fgh + edc + tgb),您很可能不會從Google獲取任何內容(目前我不)。對於任何人將其放在他們的站點地圖中(或不常用於搜索引擎的索引),這並不普遍。

+4

加入ertfghedctgb這個答案這個詞會成爲幾個小時 – SinistraD

+1

@SinistraD :)善於觀察內的谷歌的結果! –

+1

現在是搜索結果:) – nathanjosiah

1

所有瀏覽器和爬蟲在每次請求發送一種叫做HTTP_USER_AGENT字符串到Web服務器,除非它不被故意添加的軟件。該字符串標識使用的瀏覽器,它是什麼版本,渲染引擎和一些更多細節。 (見http://en.wikipedia.org/wiki/User_agent

web服務器可以讀取HTTP_USER_AGENT和改變服務內容。例如,它可用作手持設備或大屏幕上的檢測的一部分,在這種情況下,您可能需要不同的給定網頁佈局。

人們投入大量資金來吸引他們的網站流量,特別是通過Google和Bing等大型搜索引擎。術語搜索引擎優化是搜索引擎優化的一種術語,它是網頁所有者優化其內容以便搜索引擎提供相關點擊的技術。如果您有一個使用大量JavaScript和Ajax的複雜網站,您可能需要爲搜索引擎提供一個靜態頁面,以便他們閱讀您的內容。

惡意網站有時服務自動生成的,SEO優化的內容的搜索引擎排名在搜索高,但人類提供用戶一個簡單的頁面與廣告,而不是推動收入。

這個答案是作爲一種替代到正常的動態內容,如已經icyrock-COM描述的答案,是獲得另一頁比谷歌顯示的原因。

相關問題