1
提取我已經提取使用下面的代碼多種文件格式(PDF,HTML,DOC)文本(使用蒂卡)如何從文本中經常存在的話使用蒂卡
File file1 = new File("c://sample.pdf);
InputStream input = new FileInputStream(file1);
BodyContentHandler handler = new BodyContentHandler(10*1024*1024);
JSONObject obj = new JSONObject();
obj.put("Content",handler.toString());
現在,我的要求是從提取的內容中獲取經常出現的單詞,你能告訴我如何做到這一點。
感謝
內容是JSON? – vidit
是的內容存儲在json對象中 – user2545106