-1
我正在使用this scrapper for IMDB,問題是某些字符在UNICODE ï
中。 我用這個刮板的捲曲度,它的一個字符串UTF8編碼 的答案我試圖讓該字符串的編碼與mb_detect_encoding(),並與UTF8回答獲取UNICODE字符而不是HEX - cURL PHP
$html = $this->geturl("${imdbUrl}combined");
mb_detect_encoding($html);
所以我有與裏面的一些十六進制值,像這樣的字符串,例如:
$var = 'Saïd Taghmaoui'
所以我想方設法把$ HTML值與utf8_decode(),但沒有運氣,我還是有一些字符HEX。
所以,我有幾個問題:
1 - 什麼是我們的最佳解決方案?我想像不同的場景,例如讀取字符串,並用REGEX改變所有HEX代碼與字符,但我不知道這是否是最好的解決方案,也不知道如何爲此創建REGEX。
2-解決方案可以通過cURL?我的意思是管理一些配置來設置UTF-8的cURL編碼,例如?
我嘗試用recode_string或的iconv或功能mb_convert_encoding