2008-09-03 56 views
11

搜索引擎機器人以什麼爲出發點?是DNS查找還是從一些知名網站的固定列表開始?任何猜測或建議?搜索引擎在哪裏開始爬行?

+0

這個問題似乎是題外話,因爲它不是關於編程。請參閱幫助中心的[我可以詢問哪些主題](http://stackoverflow.com/help/on-topic)。也許[Web Apps Stack Exchange](http://webapps.stackexchange.com/)會是一個更好的地方。 – jww 2014-08-06 00:43:19

回答

8

你提的問題可以從兩個方面來解釋:

你問在哪裏搜索引擎從一般開始他們爬行,或在那裏他們開始抓取特定網站?

我不知道大公司是如何工作的;但是如果你想製作自己的搜索引擎,你可能會將它與流行的門戶網站相結合。 DMOZ.org似乎是一個受歡迎的起點。由於大玩家擁有的數據比我們多得多,所以他們可能會從各個地方開始爬行。

如果您問SE開始抓取您的特定網站的位置,可能與您的哪個網頁最受歡迎有很大關係。我想如果你有很多其他網站鏈接到的超級熱門網頁,那麼這將是SE開始進入的頁面,因爲其他網站有更多的入口點。

請注意,我在搜索引擎優化或任何我不是;我剛剛在研究一個項目時研究了bot和SE流量。

4

您可以提交你的網站使用他們site submission forms搜索引擎 - 這將讓你進入他們的系統。當你真的被抓取後,無法說 - 根據經驗,通常大約需要一週左右的時間才能進行初始抓取(主頁,其他頁面的幾個鏈接從那裏開始)。您可以使用清晰的語義鏈接結構並提交sitemap來增加您的多少頁面的抓取和索引 - 這些頁面允許您列出所有頁面,並相對於另一個頁面加權,這有助於搜索引擎瞭解您查看的重要程度網站的每個部分都相對於其他部分。

如果您的網站與其他網站抓取的鏈接,那麼你的網站也會被抓取,從鏈接的網頁,並最終蔓延到你的網站的其餘部分。這可能需要很長時間,並且取決於鏈接網站的抓取頻率,因此提交網址是讓Google知道您的最快捷方式!

一個工具,我不能建議高度不夠是Google Webmaster Tool。它可以讓你看到你被抓取的頻率,googlebot遇到的任何錯誤(斷開的鏈接等),還有其他一些有用的工具。

2

原則上他們從無到有。只有當有人明確告訴他們包含他們的網站時,他們才能開始抓取該網站並使用該網站上的鏈接搜索更多內容。

然而,在實踐中,搜索引擎的創建者(S)將投入他們能想到的一些任意站點。例如,他們自己的博客或他們在書籤中擁有的網站。

理論上一個也可以只挑一些隨機不會忽略,看看是否有一個網站在那裏。我懷疑有人會這樣做;上述方法將工作得很好,不需要額外的編碼來引導搜索引擎。