我在尋找一些關於Google如何抓取和索引內容的文檔。我閱讀了許多關於如何改進排名並確保您的內容已正確編制索引的「輕量級」論文和文章，但我正在尋找一些關於Google如何抓取和索引內容的高級技術文檔。Google抓取索引算法

我想知道更多的事情上

谷歌尋找什麼元素，當它抓取：網頁內容，網址格式，關鍵字，描述等...
如何更新索引？

基本上，我想了解爲什麼某些頁面被索引但不是其他人，即使格式相似。即使我可以在我的服務器日誌中看到Google抓取每個鏈接，爲什麼只有10％的網站頁面出現在我搜索整個域時。

2010-08-16 Laurent Luce

的答案，這兩件事都是緊密把守的商業祕密，表面上是爲了防止利用系統漏洞。

另外請記住，谷歌製造over 400 algorithmic changes per year，使局外人不可能準確和最新。對Google工作不足，您可能無法找到深入準確的答案。

但是，馬特卡茨，網絡垃圾郵件團隊的負責人，經常提供關於Google如何處理內容的最準確的見解，這些見解都在his blog和GoogleWebmasterHelp YouTube channel上。爲了更好地理解Google的方法，有必要仔細閱讀他的內容。

來源

2010-08-16 06:07:00

+1，儘管Page和Brin非常好，可以在Stanford頁面上提供論文「搜索引擎的解析」。我想這是您從Google獲得的最好結果。 http://infolab.stanford.edu/~backrub/google.html – 2010-08-16 13:06:29

我一直在閱讀這個博客，這確實很有趣。 – 2010-08-19 15:21:58

MapReduce: Simplified Data Processing on Large Clusters

來源

2010-08-16 00:34:20

這不是在抓取和索引網絡。這是關於如何處理大數據和一般計算。 – 2010-08-16 01:44:53

@Laurent Luce：...這就是Google抓取網絡的方式！ – 2010-08-16 02:33:22

本文不解釋內容如何被抓取和編入索引。 – 2010-08-16 05:49:00

爲了提供webcrawler如何工作的技術方法，我會建議您深入研究nutch.apache.org解決方案。

一個典型的web爬行器顯示以下區域，fetcher，解析器，索引器和搜索器。簡單地說，網絡爬蟲可以獲取網站上可用的所有網址，並創建網頁，每個網頁的存儲量高達101kb。這些頁面被解析，但是典型的單詞（如and-or-the）沒有被存儲，而是使用貝葉斯計算來分析其他單詞以獲得排名。

搜索引擎索引收集，分析和存儲數據，以促進快速和準確的信息檢索。這些任務主要通過存儲每個搜索標準的出現列表來執行，通常以使用倒排索引的散列表或二叉樹的形式。

正如馬克所言，谷歌的計算主要是商業祕密，但谷歌發佈的專利可能是一個好的開始。 Pagerank http://en.wikipedia.org/wiki/PageRank主要分析反向鏈接以及指向您網站的網站對人們偏好的重要性。根據我的經驗，重要的是提供一個XML網站地圖，說明您網站上的所有網頁。在該站點地圖上，您可以爲每個頁面定義抓取頻率。 gsitecrawler.com/是一個有趣的可能性。

谷歌網站優化工具將讓你有機會看到谷歌在你的網站上發現什麼，日誌是好的，但可能機器人發現問題和最好的方式來知道，與谷歌的網站優化器，以顯示錯誤。

最後，大部分您關注的事項都是SEO的專家所爲，我建議您檢查seomoz.com和他們的工具等網站......您將學習如何更好地在搜索引擎上定位您的網站。

希望它有幫助！，塞巴斯蒂安。

來源

2010-08-16 06:44:45

我分析了最新的算法，發現現在

谷歌給出更重視內容而不是鏈接。

因此，如果您的內容足夠好並有適當的可用標籤，Google會自動爲您生成索引。我建議H1 - H6所有使用都很好。

來源

2013-01-07 06:14:52

「是」Google喜歡新鮮&的獨特內容。使用Google webmaster guideline「試試這個」H1或H2元標記在您的HTML編程的頭標下....

您的關鍵字

。錨必須使用您的業務相關的關鍵字在 H1，H2，它可以幫助您的網站搜索引擎。

也可用於豐富片段在此標籤..！

來源

2013-07-17 08:04:58 user2590382

它非常精確和敏感地掃描您的網頁。像你嵌入JavaScript或不同文件的因素，無論你使用框架設計或使用沉重的圖形可以降低您的網頁的排名。關鍵詞顯然是影響實體的排名。損壞的鏈接還會降低您的網站排名。基本上你可以參考http://www.tutorialspoint.com/seo/去看看谷歌爬蟲的所有要點。這將需要最多40分鐘。

來源

2015-07-25 20:15:49

Google抓取索引算法

回答

您的關鍵字

相關問題