將HTML內容轉換爲列表

-1

我想從html頁面讀取所有內容並將其存儲在列表中。將HTML內容轉換爲列表

你能不能請在Python

對於實例建議選擇：

網址：https://en.wikipedia.org/wiki/Chancellor_of_Germany

獲得從該頁面的所有內容，並存儲該列表中的

德國總理是德國政府的首腦。德國的官方稱號是Bundeskanzler（in）（字面意思是聯邦總理），有時縮寫爲Kanzler（in）。這個詞源自中世紀早期，源於拉丁詞「cancellarius」。在德國的政治中，總理相當於許多其他國家的總理。德國有兩個相當的總理，總理和部長的翻譯。總理通常指的是外國政府首腦（如英國），部長普萊森特也可能會提到德國大多數州的政府首腦。現任總理是安琪拉默克爾，她正在擔任第三任職。她是第一位女總理，因此在德國被稱爲Bundeskanzlerin（這個詞在默克爾之前從未正式使用過，但它是一個語法規則的名詞，代表女總理，在「 Bundeskanzler「）。

來源

2017-09-25 Puttur Kamath

很簡單：

import requests 
import bs4 

response = requests.get('https://en.wikipedia.org/wiki/Chancellor_of_Germany') 
soup = bs4.BeautifulSoup(response.text, "html.parser") 
txt = soup.find("div", {"id": "mw-content-text"}) 
para = txt.findAll('p') 

for item in para: 
    print item.text

您可以打印此或存儲列表或其他任何東西上。此外，你可以tokenize與nltk根據句子。

來源

2017-09-25 20:56:29 RaminNietzsche

將HTML內容轉換爲列表

回答

相關問題