1
我用jieba中文詞典進行分詞。
當我打印的單詞列表,結果如下:python2.7:爲什麼打印中文樣式列表如[u' u4ed6',u' u6765 u5230',u' u4e86',u' u7f51 u6613']?
#!/usr/bin/env python
# -*- coding: utf-8 -*-
import jieba
import sys
import jieba
s1 = "他來到了網易杭研大廈!"
seg_list = jieba.cut(s1)
lst1 = ", ".join(seg_list)
print lst1
m =lst1.split(', ')
print m[2]
punct = set(u''':!),.:;?]}¢'"、。〉》」』】〕〗〞︰︱︳﹐、﹒﹔﹕﹖﹗﹚﹜﹞!),.:;?|}︴︶︸︺︼︾﹀﹂﹄﹏、~¢々‖•·ˇˉ―--′’」([{£¥'"‵〈《「『【〔〖([{£¥〝︵︷︹︻︽︿﹁﹃﹙﹛﹝({「‘-—_…''')
filterpuntl = list(filter(lambda x: x not in punct, m))
print filterpuntl[2]
結果如下:
他, 來到, 了, 網易, 杭研, 大廈, !
[u'\u4ed6', u'\u6765\u5230', u'\u4e86', u'\u7f51\u6613', u'\u676d\u7814', u'\u5927\u53a6', u'!']
[u'\u4ed6', u'\u6765\u5230', u'\u4e86', u'\u7f51\u6613', u'\u676d\u7814', u'\u5927\u53a6']
如何將[u'\u4ed6', u'\u6765\u5230' ...]
改變中國字?
當我打印列表的一個元素,它是中國人:
print m[2]
print filterpuntl[2]
結果是:
他, 來到, 了, 網易, 杭研, 大廈, !
了
了
感謝您友好的答案! – tktktk0711