我下載了一個包含巴西城市列表的網頁。字符串來作爲載體如下將默認html編碼轉換爲R中的UTF-8或latin1
vector_cities = strsplit("Nova Lima,São Paulo,Contagem,Rio de Janeiro,Rio de Janeiro,São Paulo,Castanhal,Diadema,Rio de Janeiro,Rio Verde,Porto Alegre,Maurilândia,Samambaia,Rio de Janeiro,Passo Fundo,São Paulo,Casimiro de Abreu,Rio de Janeiro,Barueri,Santos,São Paulo,São Paulo,Goiânia,Pelotas,Rio de Janeiro", ",")
vector_cities
[1] "Nova Lima" "São Paulo" "Contagem" "Rio de Janeiro" "Rio de Janeiro"
[6] "São Paulo" "Castanhal" "Diadema" "Rio de Janeiro" "Rio Verde"
[11] "Porto Alegre" "Maurilândia" "Samambaia" "Rio de Janeiro" "Passo Fundo"
[16] "São Paulo" "Casimiro de Abreu" "Rio de Janeiro" "Barueri" "Santos"
[21] "São Paulo" "São Paulo" "Goiânia" "Pelotas" "Rio de Janeiro"
我瞭解上述特殊字符的編碼,因爲這是HTML的默認編碼,但是,我已經試過的
iconv(vector_cities, from = "anything", to = "anything")
,他們許多排列例如,沒有返回S(代碼)o =São或Sao。調用Encoding(vector_cities)
結果在以下
[1] "unknown" "unknown" "unknown" "unknown" "unknown" "unknown" "unknown" "unknown" "unknown" "unknown"
[11] "unknown" "unknown" "unknown" "unknown" "unknown" "unknown" "unknown" "unknown" "unknown" "unknown"
[21] "unknown" "unknown" "unknown" "unknown" "unknown"
我缺少什麼?我是否必須改變字符串中的某些內容才能獲得正確的編碼?
這可以幫助可能:http://stackoverflow.com/q/5060076/4137985 – Cath