繼this線程解決方案,我已經成功地得到了一組列出了每個看起來像:轉換Unicode字符的列表爲希伯來文字符串在python
[u'\u05ea\u05d0\u05de\u05d9\u05df \u05dc\u05d9']
我認爲那些都是Unicode字符,但對於某些原因,我不能將它們轉換回希伯來語。
我在鏈接的評論中嘗試了建議的解決方案。我也嘗試使用''.join
,但它沒有奏效。我得到的錯誤是:
Error Type: exceptions.UnicodeEncodeError 22:42:15 T:2806414192
M:2425589760 ERROR: Error Contents: 'ascii' codec can't encode
characters in position 0-4: ordinal not in range(128)
我試圖在unicode()
包裹的東西,但我得到的是一樣的上面的例子。
我該如何做到這一點?
注:
我試圖解析this link。
編輯:
我試圖用join
到列表轉換成字符串,然後打印出來。這裏是代碼的相關費用相加:
soup = BeautifulStoneSoup(link, convertEntities=BeautifulStoneSoup.XML_ENTITIES)
programs = soup('ul')
for i,prog in enumerate(programs):
if i==(4+getLetterValue(name)):
j = 0
while j < len(prog('li')):
li = prog('li')[j]
link = li('a')[0]
url = link['href']
text = link.contents
print ''.join(text)
link
是一個字符串。和getLetterValue(name)
返回一個整數,它告訴html文檔中的位置是什麼。
你的意思是「將它們轉換回希伯來語」。例如。想要將它們寫入utf-8編碼文件? – bpgergo
已經*是該列表中的一個unicode字符串,因此是'u'...'。請詳細說明「將它們還原爲希伯來語」的含義。 –
你可以發佈你想要做的一些代碼嗎?分配列表上方的變量並打印它給תאמיןלי它看起來像希伯萊我... –