2017-06-30 26 views
-1

我正在使用this scrapper for IMDB,問題是某些字符在UNICODE ï中。 我用這個刮板的捲曲度,它的一個字符串UTF8編碼 的答案我試圖讓該字符串的編碼與mb_detect_encoding(),並與UTF8回答獲取UNICODE字符而不是HEX - cURL PHP

$html = $this->geturl("${imdbUrl}combined"); 
mb_detect_encoding($html); 

所以我有與裏面的一些十六進制值,像這樣的字符串,例如:

$var = 'Saïd Taghmaoui' 

所以我想方設法把$ HTML值與utf8_decode(),但沒有運氣,我還是有一些字符HEX。

所以,我有幾個問題:

1 - 什麼是我們的最佳解決方案?我想像不同的場景,例如讀取字符串,並用REGEX改變所有HEX代碼與字符,但我不知道這是否是最好的解決方案,也不知道如何爲此創建REGEX。

2-解決方案可以通過cURL?我的意思是管理一些配置來設置UTF-8的cURL編碼,例如?

我嘗試用recode_string或的iconv功能mb_convert_encoding

回答

0

嗯,基本上我的問題是,從刮板的回答帶有UTF-8編碼,但打印前的文本,我需要使用此功能處理數據

$var = 'Saïd Taghmaoui' 
htmlspecialchars(html_entity_decode($var, ENT_QUOTES, 'UTF-8'), ENT_NOQUOTES, 'UTF-8'); 
相關問題