python2.7：爲什麼打印中文樣式列表如[u'\ u4ed6'，u'\ u6765 \ u5230'，u'\ u4e86'，u'\ u7f51 \ u6613']？

我用jieba中文詞典進行分詞。
當我打印的單詞列表，結果如下：python2.7：爲什麼打印中文樣式列表如[u' u4ed6'，u' u6765 u5230'，u' u4e86'，u' u7f51 u6613']？

#!/usr/bin/env python 
# -*- coding: utf-8 -*- 
import jieba 
import sys 
import jieba 


s1 = "他來到了網易杭研大廈!" 
seg_list = jieba.cut(s1) 
lst1 = ", ".join(seg_list) 
print lst1 
m =lst1.split(', ') 
print m[2] 
punct = set(u''':!),.:;?]}¢'"、。〉》」』】〕〗〞︰︱︳﹐､﹒﹔﹕﹖﹗﹚﹜﹞！），．：；？｜｝︴︶︸︺︼︾﹀﹂﹄﹏､～￠々‖•·ˇˉ―--′’」([{£¥'"‵〈《「『【〔〖（［｛￡￥〝︵︷︹︻︽︿﹁﹃﹙﹛﹝（｛「‘-—_…''') 

filterpuntl = list(filter(lambda x: x not in punct, m)) 

print filterpuntl[2]

結果如下：

他, 來到, 了, 網易, 杭研, 大廈, ! 
[u'\u4ed6', u'\u6765\u5230', u'\u4e86', u'\u7f51\u6613', u'\u676d\u7814', u'\u5927\u53a6', u'!'] 
[u'\u4ed6', u'\u6765\u5230', u'\u4e86', u'\u7f51\u6613', u'\u676d\u7814', u'\u5927\u53a6']

如何將[u'\u4ed6', u'\u6765\u5230' ...]改變中國字？

當我打印列表的一個元素，它是中國人：

print m[2] 
print filterpuntl[2]

結果是：

他, 來到, 了, 網易, 杭研, 大廈, ! 
了 
了

來源

2017-09-27 tktktk0711

u'\u4ed6'是中國的性格。這只是一種不同的表現形式，就像你可以用0.1或1e-1來寫相同的數字一樣 - 只是外表不同而已。

如果你想看到正確的字形打印清單等（其發射的repr()形式的對象）時，切換到Python 3：

$ python3 
Python 3.5.2 (default, Aug 18 2017, 17:48:00) 
[GCC 5.4.0 20160609] on linux 
Type "help", "copyright", "credits" or "license" for more information. 
>>> print(['\u4ed6']) 
['他']

來源

2017-09-27 08:23:23 lenz

感謝您友好的答案！ – tktktk0711

python2.7：爲什麼打印中文樣式列表如[u'\ u4ed6'，u'\ u6765 \ u5230'，u'\ u4e86'，u'\ u7f51 \ u6613']？

回答

相關問題