我目前正在嘗試編寫一個腳本,需要URL到lyricswikia並將歌詞從網站中提取出來。我想我已經想出瞭如何隔離相關的div標籤,但由於某種原因,python在div標籤前面輸出一個「b」,我不知道如何從腳本之間提取歌詞在div標籤內。我的代碼如下:BeautifulSoup Python添加額外字符
from bs4 import BeautifulSoup
import requests
#gets webpage
r = requests.get('http://lyrics.wikia.com/2Pac:Dear_Mama')
string = r.content
soup = BeautifulSoup(string[3:])
results = soup.find('div', {'class': 'lyricbox'}).encode('utf-8')
print(results)
編輯:我的最終目標仍然是打印的歌詞,只有網頁上的歌詞,作爲一個字符串,所以我需要在字節文本對象轉換爲字符串,並以某種方式刪除最後的評論。我嘗試從Vincent的建議代碼中刪除.encode('utf-8'),它可以工作,但它在最後的評論開始時吐出一個錯誤。
你是什麼意思與__但由於某種原因python輸出它與一個「b」__如果我運行它不打印ab前面的div – 2014-10-30 09:12:45
我的意思是它真正打印ab'前面的div ,如[這裏]所示(http://i.gyazo.com/56578b68e70c9d96e04a590b0bee9bdf.png) – thenorm 2014-10-30 09:22:52
你正在使用二進制數據而不是字符串,所以當你打印字符串ist的表示形式將看起來像「b」。 ...「'。 – Matthias 2014-10-30 09:26:25