2009-11-30 114 views

回答

3

有一個開放的檔案倡議協議的元數據收集,它使用XML的HTML。您可以在:​​

此外,深層網絡(也稱Deepnet,不可見網絡,暗網或隱藏網絡)是指萬維網內容不是表面網絡的一部分,它被索引爲標準的搜索引擎。

商業搜索引擎已經開始探索替代方法來抓取深度網絡。 Sitemaps協議(最初由Google開發)和mod oai是允許搜索引擎和其他感興趣的各方發現特定Web服務器上的深層Web資源的機制。這兩種機制都允許Web服務器通告可訪問的URL,從而允許自動發現不直接鏈接到表面Web的資源。 Google的深層Web顯示系統會預先計算每個HTML表單的提交內容,並將生成的HTML頁面添加到Google搜索引擎索引中。浮出水面的結果每秒對深層Web內容進行一千次查詢。在這個系統中,提交的預先計算是使用三種算法進行:

(1),用於接受關鍵字的文本搜索輸入,用來選擇輸入值,

其中只接受特定的值(2)識別輸入類型(例如,日期)和

(3)選擇生成適合於包含到網絡搜索索引中的URL的少量輸入組合。

+0

深網和黑網是*不是一回事。 – ray 2016-05-10 04:27:40

1

如果Google無法索引這些頁面中的任何一個,那麼您認爲開源庫可以做到這一點? :)

這就是說,您的文章中有一些關於抓取深度網絡的鏈接,這可能是一個開始調查的好地方。這裏有一些其他的:

+0

Google的重點不在於Deep Web--我不質疑潛在能力,而是爲了達到目的。對於彈藥和其他各種不適合谷歌進行索引的主題,Deep Web是非常廣泛的非法信息資源,無論其被歸類爲「安全搜索」的程度如何。對於「開源」,我的意思是相當黑客的存儲庫計劃,可通過某種API進行查詢。 – luvieere 2009-11-30 22:11:48

+0

軍火,非法信息......你究竟想在這裏做什麼? – 2010-02-20 19:11:16

相關問題