2011-12-16 78 views
1

我正在使用Mozenda(Mozenda.com)來抓取在線數據庫,但其中一些數據是PDF文件。 Mozenda似乎不支持抓取這些文件,所以我正在尋找另一種解決方案。如何從PDF中抓取信息?

有兩個問題...

  1. 什麼是適當的XPath語法選擇從 鏈接的網址?目前尚不清楚如何使用Mozenda來做到這一點,並且PDF地址 是實施第三方解決方案所必需的。

  2. 什麼是將大量PDF在線轉換爲 html的好工具,或者更好的辦法是刮掉它們?

任何有用的建議是非常值得讚賞的。我很高興澄清......只是問。

回答

0

使用mozenda本身可以創建xpath。創建任何操作>優化操作>放置。在Xpath中,並從CaptureDefination獲取所需數據。