0
我使用Firefox的XPath的提取從該網站提取下面的代碼片段:http://www.zdic.net/z/19/js/5DCD.htm
確定從xpath刮取的內容的編碼。轉換爲Unicode
我要找的那部分是丨フ丨ノ一丨ノ丶フノ一ノ丨フ一一ノフフ丶
的xpath extractor add on擔任我下面id('z_i_t2_bis')
我用這個命令輸入scrapy shell:response.selector.xpath("id('z_i_t2_bis')").extract()
它返回了這個:
[u'<span id="z_i_t2_bis" title="\u7ad6\u6298\u7ad6\u6487\u6a2a\u7ad6\u6487\u637a\u6298\u6487\u6a2a\u6487\u7ad6\u6298\u6a2a\u6a2a\u6487\u6298\u6298\u637a">\u4e28\u30d5\u4e28\u30ce\u4e00\u4e28\u30ce\u4e36\u30d5\u30ce\u4e00\u30ce\u4e28\u30d5\u4e00\u4e00\u30ce\u30d5\u30d5\u4e36</span>']
如何判斷這是我想要的?
它似乎被編碼爲HTML,有沒有辦法讓它回到unicode?