2009-08-18 131 views
0

我正在嘗試將html編碼文本轉換爲utf-8以將其放入我的數據庫。 有很多字符會被html_entity_decode或iconv與Translit一起遺漏。html_entity_decode characters like Yuml vs&yuml

我已經寫了字的長列表來剔除,但現在我看到& Yuml不被翻譯,但& yuml是。

我相信還有其他類似的符號也錯過了。

關於如何最好地處理這些不一致的建議?並確保我得到每個字符翻譯正確?

回答

1

任何形式的&等等;是(X)HTML中的實體引用;如果你需要確保你已經得到了全部,請確保你的最終UTF-8輸出中沒有包含該模式。你還會發現很多沒有分號的結尾(但是有很多誤報)。

維基百科自然地有一個list of HTML/XHTML/XML entity codes。您可以實施該(長)列表,並查看是否在野外找到任何附加的列表。

+0

謝謝德羅伯特, 我希望有一種方法可以做到這一點,而不會經歷這麼長的列表(希望已經存在的東西)。 看起來我會爲此做些清潔工作,我會在未來爲那些需要它的人發佈功能。 – pedalpete 2009-08-19 18:25:07