2016-11-20 46 views
0

的Html我加載到BeutifulSoap4的格式如下:BeutifulSoap4和逃脫的HTML數據

\\u003C/span\\u003E\\u003Ca href=\\"javascript:void(0)\\" class=\\"something something22\\"\\u003EShowMore\\u003C/a\\u003E\\u003C/span\\u003E\\u003Cspan style=\\"display:none\\" class=\\"review-full-text\\"\\u003ESomething else.... 

因爲這BeutifulSoap4都找不到HTML標籤和,例如,它通常能夠:

bsoup1.find_all("div", class_="some_class") 

有沒有解決這個問題的標準方法?

+0

你是怎麼得到這個字符串? – furas

回答

0

您可以嘗試unicode_escape編碼

data = '\\u003C/span\\u003E\\u003Ca href=\\"javascript:void(0)\\" class=\\"something something22\\"\\u003EShowMore\\u003C/a\\u003E\\u003C/span\\u003E\\u003Cspan style=\\"display:none\\" class=\\"review-full-text\\"\\u003ESomething' 

print(data.encode('utf-8').decode('unicode_escape')) 

7.2.4. Python Specific Encodings