2015-07-12 84 views
0

我正在創建一個新聞應用程序,並具有網址到文章的網址,例如http://www.bbc.co.uk/news/technology-33379571,我需要一種方法從文章中提取內容android獲取新聞文章內容

我試過jsoup但給出了所有的html標籤,並且有一個<main-article-body>,但它給出了我試圖提取的文章的鏈接。我知道boilerpipe完全是這樣,但這不適用於android,我真的堅持這個問題。

任何幫助將非常感激

回答

0

我已經在幾個數據提取應用in.Net(C#)工作,並已使用正則表達式來提取新聞網站的內容。

其基本思想是先提取所有的href鏈接(根據需要),然後通過發出web請求來獲取詳細信息內容。最後使用正則表達式來提取新聞主體數據。

注意:此過程的一個問題是,當數據源網站更改時,您將需要更改正則表達式。