2016-02-27 109 views
-1

我們有一個pdf頁面,其中包含一個或多個數字,這是實驗結果的二維圖。這些數字可能嵌入或不嵌入文本。每個圖都有x和y軸,並在圖中標出了標籤和單位測量值。每張圖內都有一個或多個地塊,每個地塊都有不同的顏色。從PDF提取圖

我們如何將圖表轉換爲相應的x和y值(比如說100點)?

我已經試過WebPlotDigitizer但它只有在輸入是一個獨立的情節圖片時纔有效。

我想我需要做的是從PDF中提取圖並進一步處理。現在,我無法找到一個工具來做到這一點。我附上了一張sample PDF,其中的地塊必須被提取出來。

請注意,PDF的最後一頁中的2個圖是圖像,可以很容易地提取出來(我找到了幾個軟件)。其他圖不是圖像,軟件無法提取他們。

是否有任何開源軟件可以實現這一目標?

+0

你可以用'ImageMagick'將每個頁面轉換成PNG或TIFF文件,然後剪出圖並顯然將它們發送給WebPlotDigitiser,但我懷疑你不是那個意思,是嗎? –

回答

1

您提供的PDF文件中的圖形是用矢量圖形制作的,所以提取它們的唯一方法是將PDF轉換爲圖像(即渲染頁面)。嘗試ImageMagick's convert command line,看到這個answer

0

由於Photoshop非常好用腳本編寫,實際上可以通過編程方式從PDF中提取圖像(與頁面相反;請參閱Photoshop JavaScript文檔)。

然後你有整套儀器來調整圖像,以便進一步處理(解釋)更容易完成。