Apache Tika的GUI實用程序提供了獲取給定文檔或URL的主要內容(格式文本和結構化文本除外)的選項。我只想知道哪個方法負責提取文檔/網址的主要內容。以便我可以將該方法合併到我的程序中。此外,他們是否在從HTML頁面提取數據時使用任何啓發式算法。因爲有時在提取的內容中,我無法看到廣告。我們發現BoilerPipeContentHandler負責它。Tika - 從文檔檢索主要內容
3
A
回答
7
Tika GUI中的「主要內容」功能是使用BoilerpipeContentHandler類實現的,該類依靠boilerpipe library進行繁重工作。
0
我相信這是由BodyContentHandler驅動的,它只提取文檔正文的HTML內容。如果需要,這可以另外與其他處理程序組合以僅返回主體的純文本。
0
public String[] tika_autoParser() {
String[] result = new String[3];
try {
InputStream input = new FileInputStream(new File(path));
ContentHandler textHandler = new BodyContentHandler();
Metadata metadata = new Metadata();
AutoDetectParser parser = new AutoDetectParser();
ParseContext context = new ParseContext();
parser.parse(input, textHandler, metadata, context);
result[0] = "Title: " + metadata.get(metadata.TITLE);
result[1] = "Body: " + textHandler.toString();
} catch (FileNotFoundException e) {
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
} catch (SAXException e) {
e.printStackTrace();
} catch (TikaException e) {
e.printStackTrace();
}
return result;
}
相關問題
- 1. iPhone:檢索「文檔」目錄的內容
- 2. 檢索文檔內容與文檔結構與Python,DOCX
- 3. Apache Tika服務器請求獲取'主要內容'而不是'純文本'
- 4. 從子內容檢索內容
- 5. 內容不從文件中檢索
- 6. 如何從docx4js檢索內容文本?
- 7. 從SharePoint 2010文檔庫檢索文檔
- 8. 檢索word文檔內的內容控件的位置
- 9. Grails - Tika內容操作
- 10. 無法使用tika從pdf文件中提取文本內容
- 11. 如何從中提取內容。使用apache tika的Pst文件?
- 12. Apache Tika無法從大型PDF中提取全文內容
- 13. 設計文檔內容 - 需要什麼?
- 14. 將Google文檔內容檢索到vb窗體中
- 15. Solr沒有索引文檔的內容
- 16. 如何從LaTeX文檔中提取重要的文本內容
- 17. 從未知內容類型的文檔中提取文本
- 18. 如何顯示從jquery.ajax()中檢索到的xml文檔的內容...?
- 19. 檢索Cookie內容
- 20. NSMutableDictionary檢索內容
- 21. Mongodb檢索文檔
- 22. 如何從使用Open CMIS分離文檔類型的露天存儲庫中檢索所有文檔內容
- 23. Asp.net從控件檢索內容
- 24. 從NSOutlineView中檢索單元格內容
- 25. 根據文件夾名從文檔檢索文檔
- 26. 從mongoDB中檢索嵌入文檔
- 27. 從HTML文檔中檢索單詞量
- 28. C#:從bson文檔檢索數組值
- 29. 從MHT文檔中提取內容
- 30. 從gdata API讀取文檔內容?
在下面的問題中提供了一個解決方案,使用boilerpipe。 http://stackoverflow.com/questions/42589076/apache-tika-how-to-extract-html-body-with-out-header-and-footer-content – 2017-03-08 04:33:45