寫了一個從PDF文檔讀取文本的函數。 使用scala語言,Selenium,PDFBox 2.0.1。代碼中的Scala PDFBox錯誤
下面是代碼:
enter code here
import org.openqa.selenium.firefox.{FirefoxBinary, FirefoxDriver, FirefoxProfile}
import org.apache.pdfbox.pdfparser.PDFParser
import org.apache.pdfbox.text.PDFTextStripper
import java.io.BufferedInputStream
def pdfreaddata {
driver.get("https://www.....pdf")
driver.manage.timeouts.implicitlyWait(50, TimeUnit.SECONDS)
val url: URL = new URL(driver.getCurrentUrl)
println(url)
val fileToParse: BufferedInputStream = new BufferedInputStream(url.openStream())
val parser: PDFParser = new PDFParser(fileToParse)
parser.parse()
val output: String = new PDFTextStripper().getText(parser.getPDDocument)
println("pdf Value" + output)
parser.getPDDocument.close()
driver.manage.timeouts.implicitlyWait(100, TimeUnit.SECONDS)
}
顯示爲PDFParser錯誤val parser: PDFParser = new PDFParser(fileToParse)
錯誤消息:
無法解析構造
試過代碼的Java太,得到同樣的錯誤。
正確的調用是PDDocument doc = PDDocument.load(stream)。使用新的PDFParser()是一種過時的方法。但是,我不知道這是否是你的煩惱的原因。 –