2014-10-07 64 views
0

我正在嘗試製作搜索引擎。我想知道如何在開始的網址在我的數據庫中編制索引?例如,谷歌如何獲取網站的網址以進行抓取?
如何獲取我自己的搜索引擎的初始索引數據?

+0

谷歌飢腸轆轆地搶了他們可以找到的每一個最後的URL,無論它來自哪裏。有一個階段,SE在進行數字戰爭,爲了「贏得」營銷目的,用大量的URL數量誇大了他們的數據庫。他們從哪裏得到它們?到處。例如,許多人會在谷歌搜索框中輸入網址,將其添加到蜘蛛隊列... – MrYellow 2014-10-07 22:47:10

回答

1

您可以從現有的索引開始,並使用它來構建自己的索引。 dmoz是一個人類可編輯索引:http://www.dmoz.org/

+0

好吧如何查詢dmoz以獲取初始數據?他們有些API或什麼? – Despicable 2014-10-07 21:20:00

+0

如果你的搜索引擎有一個爬蟲,你可以開始指向它在dmoz.org;) – 2014-10-07 21:24:29

+0

謝謝:)你知道一些基於JavaScript的抓取工具,我可以加入我的搜索引擎嗎? – Despicable 2014-10-07 21:28:30