2017-09-25 118 views
-1

我想從html頁面讀取所有內容並將其存儲在列表中。將HTML內容轉換爲列表

你能不能請在Python

對於實例建議選擇:

網址:https://en.wikipedia.org/wiki/Chancellor_of_Germany

獲得從該頁面的所有內容,並存儲該列表中的

德國總理是德國政府的首腦。德國的官方稱號是Bundeskanzler(in)(字面意思是聯邦總理),有時縮寫爲Kanzler(in)。這個詞源自中世紀早期,源於拉丁詞「cancellarius」。 在德國的政治中,總理相當於許多其他國家的總理。德國有兩個相當的總理,總理和部長的翻譯。總理通常指的是外國政府首腦(如英國),部長普萊森特也可能會提到德國大多數州的政府首腦。 現任總理是安琪拉默克爾,她正在擔任第三任職。她是第一位女總理,因此在德國被稱爲Bundeskanzlerin(這個詞在默克爾之前從未正式使用過,但它是一個語法規則的名詞,代表女總理,在「 Bundeskanzler「)。

回答

0

很簡單:

import requests 
import bs4 

response = requests.get('https://en.wikipedia.org/wiki/Chancellor_of_Germany') 
soup = bs4.BeautifulSoup(response.text, "html.parser") 
txt = soup.find("div", {"id": "mw-content-text"}) 
para = txt.findAll('p') 

for item in para: 
    print item.text 

您可以打印此或存儲列表或其他任何東西上。此外,你可以tokenizenltk根據句子。