2012-03-31 83 views
0

我正在寫一個簡單的查詢來查找commons.wikimedia.org上的網址,但我似乎無法弄清楚應該使用哪個特定的清理規則來獲取那裏使用的確切名稱文件。維基媒體網址上使用了哪些特定的消毒功能?

例如:象牙海岸的旗幟在法國被列爲Drapeau_de_la_Côte_d%27Ivoire,所以我知道它是撇號正在消毒,但常規ô不是。我見過很多其他文件名保留特殊字符。

假設所有的特殊字符都被保留並且所有的標點符號和/或非字母都被消毒是否安全?

+0

瀏覽器這樣做,不wikepedia。瀏覽器只會以ASCII碼符號的形式發送網址,但會以更友好的方式向用戶顯示它們 – zerkms 2012-03-31 13:04:23

+0

,因此無法對其進行任何消毒處理? – moraleida 2012-03-31 13:05:24

+0

我不確定你的意思是什麼樣的消毒,但是對於那部分他們只是發送%nn編碼的數據(http://en.wikipedia.org/wiki/Flag_of_C%C3%B4te_d'Ivoire)和你的瀏覽器解碼它 – zerkms 2012-03-31 13:07:19

回答

2

維基百科使用的所有url都以%nnnn格式轉義(根據所有URL RFC),並且您的瀏覽器爲您做了最後的工作,只是爲了讓url更友好。

所以,即使我的鉻顯示http://en.wikipedia.org/wiki/Flag_of_Côte_d'Ivoire網址,原來是http://en.wikipedia.org/wiki/Flag_of_C%C3%B4te_d'Ivoire

+0

真棒,謝謝! – moraleida 2012-03-31 13:19:08