2010-08-16 55 views
3

我在尋找一些關於Google如何抓取和索引內容的文檔。我閱讀了許多關於如何改進排名並確保您的內容已正確編制索引的「輕量級」論文和文章,但我正在尋找一些關於Google如何抓取和索引內容的高級技術文檔。Google抓取索引算法

我想知道更多的事情上

  • 谷歌尋找什麼元素,當它抓取:網頁內容,網址格式,關鍵字,描述等...
  • 如何更新索引?

基本上,我想了解爲什麼某些頁面被索引但不是其他人,即使格式相似。即使我可以在我的服務器日誌中看到Google抓取每個鏈接,爲什麼只有10%的網站頁面出現在我搜索整個域時。

回答

5

的答案,這兩件事都是緊密把守的商業祕密,表面上是爲了防止利用系統漏洞。

另外請記住,谷歌製造over 400 algorithmic changes per year,使局外人不可能準確和最新。對Google工作不足,您可能無法找到深入準確的答案。

但是,馬特卡茨,網絡垃圾郵件團隊的負責人,經常提供關於Google如何處理內容的最準確的見解,這些見解都在his blogGoogleWebmasterHelp YouTube channel上。爲了更好地理解Google的方法,有必要仔細閱讀他的內容。

+1

+1,儘管Page和Brin非常好,可以在Stanford頁面上提供論文「搜索引擎的解析」。我想這是您從Google獲得的最好結果。 http://infolab.stanford.edu/~backrub/google.html – 2010-08-16 13:06:29

+0

我一直在閱讀這個博客,這確實很有趣。 – 2010-08-19 15:21:58

0
+0

這不是在抓取和索引網絡。這是關於如何處理大數據和一般計算。 – 2010-08-16 01:44:53

+0

@Laurent Luce:...這就是Google抓取網絡的方式! – 2010-08-16 02:33:22

+1

本文不解釋內容如何被抓取和編入索引。 – 2010-08-16 05:49:00

1

爲了提供webcrawler如何工作的技術方法,我會建議您深入研究nutch.apache.org解決方案。

一個典型的web爬行器顯示以下區域,fetcher,解析器,索引器和搜索器。簡單地說,網絡爬蟲可以獲取網站上可用的所有網址,並創建網頁,每個網頁的存儲量高達101kb。這些頁面被解析,但是典型的單詞(如and-or-the)沒有被存儲,而是使用貝葉斯計算來分析其他單詞以獲得排名。

搜索引擎索引收集,分析和存儲數據,以促進快速和準確的信息檢索。這些任務主要通過存儲每個搜索標準的出現列表來執行,通常以使用倒排索引的散列表或二叉樹的形式。

正如馬克所言,谷歌的計算主要是商業祕密,但谷歌發佈的專利可能是一個好的開始。 Pagerank http://en.wikipedia.org/wiki/PageRank主要分析反向鏈接以及指向您網站的網站對人們偏好的重要性。根據我的經驗,重要的是提供一個XML網站地圖,說明您網站上的所有網頁。在該站點地圖上,您可以爲每個頁面定義抓取頻率。 gsitecrawler.com/是一個有趣的可能性。

谷歌網站優化工具將讓你有機會看到谷歌在你的網站上發現什麼,日誌是好的,但可能機器人發現問題和最好的方式來知道,與谷歌的網站優化器,以顯示錯誤。

最後,大部分您關注的事項都是SEO的專家所爲,我建議您檢查seomoz.com和他們的工具等網站......您將學習如何更好地在搜索引擎上定位您的網站。

希望它有幫助!,塞巴斯蒂安。

0

我分析了最新的算法,發現現在

谷歌給出更重視內容而不是鏈接

因此,如果您的內容足夠好並有適當的可用標籤,Google會自動爲您生成索引。我建議H1 - H6所有使用都很好。

1

「是」Google喜歡新鮮&的獨特內容。 使用Google webmaster guideline「試試這個」H1H2元標記在您的HTML編程的頭標下....

您的關鍵字

。錨必須使用您的業務相關的關鍵字在 H1,H2,它可以幫助您的網站搜索引擎。

也可用於豐富片段在此標籤..!

1

它非常精確和敏感地掃描您的網頁。像你嵌入JavaScript或不同文件的因素,無論你使用框架設計或使用沉重的圖形可以降低您的網頁的排名。關鍵詞顯然是影響實體的排名。損壞的鏈接還會降低您的網站排名。 基本上你可以參考http://www.tutorialspoint.com/seo/去看看谷歌爬蟲的所有要點。這將需要最多40分鐘。