2013-05-02 93 views
4

我正在爲客戶端進行重新設計。在新網站上,我想使用Google自定義搜索(CSE)作爲搜索引擎。在開發過程中,我不能讓Google爲新網站編制索引,因爲這將會是一堆可怕的重複項目,而且還會在Google搜索引擎中四處遊動。谷歌在開發中的自定義搜索

那麼如何在啓動之前在我的開發站點上測試並優化來自Google CSE的搜索結果?

感謝, 丹尼爾

+0

本網站將在一個域名?因爲否則就沒有必要過分考慮索引。 – fotanus 2013-05-02 12:57:52

+0

你是什麼意思的「在一個域」?它最終將在www.example.com上誦讀,但在開發過程中並在test.example.com上進行測試。 – 2013-05-09 10:20:01

回答

0

就可以避免使用robots

網站所有者使用的/robots.txt文件提供有關 他們的網站網絡機器人的指令被收錄一些網頁;這被稱爲機器人排除 協議。

它的工作原理是這樣的:機器人想要瀏覽一個網站的URL,比如說 http://www.example.com/welcome.html。它這樣做之前,它首創 檢查http://www.example.com/robots.txt,並且發現:

User-agent: * 
Disallow:/

「用戶代理:*」是指本部分適用於所有的機器人。 「不允許:/」告訴機器人它不應該訪問該網站上的任何頁面 。

看着文檔,我找不到任何關於robots.txt的內容,所以不知道它是否被尊重。但看看docs它說,你可以手動刪除它或設置過期日期sitemap.xml

+0

OP在發佈前說**,所以測試時網站不會上網。他似乎需要在離線或本地機器上進行測試的可能性。 – Uooo 2013-05-02 12:54:24

+0

@ w4rumy謝謝,也許我不明白這個問題?會做出一些評論,試圖讓我更清楚。 – fotanus 2013-05-02 12:58:24

+0

感謝您的回答。澄清:最好我想在本地機器上運行它,但這並非絕對必要。現場(舊)網站位於www.awesomesite.com,正在開發的新網站位於test.awesomesite.com。因此,Google可以訪問測試網站,但我不希望test.awesomesite.com中的網頁出現在一般Google索引中。關於robot.txt解決方案,不會阻止谷歌CSE索引本地搜索頁面嗎? – 2013-05-02 13:55:48

2

您的網站必須被添加到您的網站管理員工具帳戶。一旦我添加了我的測試網站,我就可以在網站搜索中使用索引中的robots.txt文件對網頁進行爬網,以禁止網站搜索。

我能夠抓取頁面,但要驗證我在網站管理員工具中檢查了網址,並且表示該網頁仍然隱藏在主要谷歌索引中。我將這個相同的網址添加到自定義搜索索引,如果發現它很好。

因此,這將有效地讓您搜索您的測試網站,但保持它隱藏的世界搜索。

enter image description here

2

由於2016年11月,這仍然是不可能的。我意識到這是問了幾年後,但我一直在努力完成這一點。這是我對Google支持查詢得到的(令人失望的)回覆。

谷歌網站搜索將返回唯一的URL作爲結果,它們分別是:

  1. 添加在網站進行查詢配置和
  2. 收錄

我想更新你,GSS託管在Google的 基礎架構上,並使用與Google.com相同的技術。這是 不可能獲得在GSS內部編入索引的頁面,但不在 谷歌的主索引中。

GSS只能索引和抓取那些公開的文檔和 可通過互聯網訪問。

GSS和Google.com使用相同的抓取工具和相同的索引服務器。因此,如果 您阻止訪問google.com,那麼您的網頁將不會編入索引 並在GSS結果中投放。