2011-07-18 140 views
0

我正在爲一家擁有來自世界各地客戶的公司開發一個網站,該網站將以兩種語言提供:意大利語(本地)和英語。 一旦訪問者訪問該網站,我檢查IP,如果它來自意大利,我會用意大利語顯示該網站,如果它不是我用英語顯示的話。當然,他們可以選擇手動覆蓋語言。 當搜索引擎bots檢查網站來索引頁面時究竟發生了什麼?多語言網站和搜索引擎

  • 通常爬蟲永遠都基於美國的IP
  • 即使爬蟲「點擊」「更改語言」鏈接,以顯示意大利的頁面,因爲他們不能接受Cookie(等會話)我可以」 t保持語言設置或保持已被選擇的痕跡

所以問題是,你怎麼能處理這種情況的方式,搜索引擎掃描兩種語言,還索引他們?

回答

2

谷歌實際上在他們的網站管理員指南中有關於此主題的文章。您可能需要查看一下,因爲它們專門解決您提出的問題:http://www.google.com/support/webmasters/bin/answer.py?answer=182192

+0

從我得到的我不應該放在自動重定向(至少不是機器人的用戶代理)基於語言(也許只是在主頁?),並將lang與子文件夾/子域名分開。這樣機器人應該掃描所有的語言? –

+0

只要你有不同的子域/目錄爲每種語言,你應該沒問題。只要確保你有導致每種語言的機器人可訪問的鏈接。 – kbad

0

我會使用子域名:

eng.mysite.com/whatever 
it.mysite.com/whatever 

然後有一個指向每個這些語言的子站點的主頁的地圖,和他們都應該被抓取就好了。

0

您可以用下面的辦法:

  • 掃描用戶代理偏好語言的Accept-Language頭($_SERVER['HTTP_ACCEPT_LANGUAGE'])。這通常比檢查其國家的IP地址更可靠。
  • 檢查用戶代理標頭($_SERVER['HTTP_USER_AGENT'])以查看請求是否來自搜索引擎,如「Googlebot」和「Yahoo!Slurp」。
+0

爬網程序使用Accept-Language? –