1
我只是試圖從這樣一個網頁得到一些數據:獲得從HTML頁面數據成Python陣列
[ . . . ]
<p class="special-large">Lorem Ipsum 01</p>
<p class="special-large">Lorem Ipsum 02</p>
<p class="special-large">Lorem Ipsum 03</p>
<p class="special-large">Lorem Ipsum 04</p>
<p class="special-large">Lorem Ipsum 05</p>
[ . . . ]
我想有一個python陣列類似以下:
myArrayWebPage = ["Lorem Ipsum 01","Lorem Ipsum 02","Lorem Ipsum 03","Lorem Ipsum 04","Lorem Ipsum 05"]
這是我的Python腳本:
import urllib.request
urlAddress = "http:// ... /" # my url address
getPage = urllib.request.urlopen(urlAddress)
outputPage = getPage.read()
print(outputPage)
我怎樣才能從 「outputPage」 的陣列?
謝謝!我能問你「正則表達式」是什麼意思嗎? –
你可以點擊現在的術語,維基百科的文章就會出現。下次嘗試在Google上搜索您不熟悉的術語。 –
@JoeHunter請藉此機會閱讀爲什麼正則表達式不足以解析HTML的瘋狂有趣的答案:http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-標籤 –