我使用htmlparser 1.6解析網站。解析PDF文件時出現問題
的問題是,當我解析PDF格式的網站,我在輸出文件奇怪的字符獲得像
ØÇÁÖÜ/:?ÖQØ?WÕWÏ
這是我的代碼片段:
try {
parser = new Parser();
if (1 < args.length)
filter = new TagNameFilter (args[1]);
else
{
filter = null;
parser.setFeedback (Parser.STDOUT);
Parser.getConnectionManager().setMonitor (parser);
}
Parser.getConnectionManager().setRedirectionProcessingEnabled (true);
Parser.getConnectionManager().setCookieProcessingEnabled (true);
// Here the pdf web site
parser.setResource ("http://hal.archives-ouvertes.fr" +
"/docs/00/16/76/78/PDF /27_Bendaoud.pdf");
NodeList list = parser.parse(filter);
NodeIterator i = list.elements();
while (i.hasMoreNodes())
processMyNodes(i.nextNode());
}
catch (EncodingChangeException ece) {
try {
parser.reset();
NodeList list = parser.parse(filter);
for (NodeIterator i = list.elements(); i.hasMoreNodes();)
processMyNodes (i.nextNode());
}
catch (ParserException e) {
e.printStackTrace();
}
}
catch (ParserException e) {
e.printStackTrace();
}
更新:
我已經使用iText解析PDF文件。它的工作原理以及對本地文件,但我想分析其在web服務器託管,如這一個PDF文件:
http://protege.stanford.edu/publications/ontology_development/ontology101.pdf「
我該怎麼辦利用iText或其他圖書館這個任務?
您將最有可能得到,如果1回答/你的格式代碼提取,和2 /你給更多的細節(你的代碼的語言,鏈接到htmlparser,...) – 2010-10-23 21:38:54
恩,pdf的不是HTML,因此我不希望htmlparser解析他們在任何方式形狀或形式。 – 2010-10-23 22:13:28