我想使用boilerpipe java庫來從一組網站中提取新聞文章。 它適用於英文文本,但對於帶有特殊字符的文本(例如帶有重音符號的文字(歷史記錄)),此特殊字符不能正確提取。我認爲這是一個編碼問題。使用boilerpipe提取非英文文章
在boilerpipe常見問題中,它說「如果提取非英文文本,您可能需要更改一些參數」,然後參考paper。我在本文中找不到解決方案。
我的問題是,有沒有任何參數,當使用boilerpipe我可以指定編碼?有什麼方法可以解決問題並正確地獲取文本嗎?
如何我使用的庫: (第一次嘗試基於URL):
URL url = new URL(link);
String article = ArticleExtractor.INSTANCE.getText(url);
(第二次在HTLM源代碼)
String article = ArticleExtractor.INSTANCE.getText(html_page_as_string);
謝謝你的回答。我很抱歉現在只關注它,但我一直被困在另一個項目中。我試過在這段代碼之後打印設置在變量cs上的代碼,結果始終是ISO-8859-1。我也試圖強制編碼爲UTF-8,但沒有得到更好的結果。 該問題必須在其中一個轉換,HTMLDocument,TextDocument等,但我有一些麻煩打印他們的文字內容。有任何想法嗎?再次感謝。 – 2012-02-24 20:06:59
安德烈,你是對的。我試圖讓很多事情變得複雜,但最終它是一個非常簡單的解決方案。再次感謝,我很抱歉,我還無法讚揚你。 – 2012-03-06 15:33:41