2011-05-20 45 views
1

我有大約兩頁文字格式的文字。該文本分爲兩列。我想解析文本。但是,我無法閱讀第一欄和第二欄。我沒有任何計劃,因爲我甚至不知道如何開始。我打算使用perl進行解析,但使用任何其他語言的幫助也會使我開始,甚至是一些大方向。用文本流解析

+0

M $詞?祝你好運。這是一個格式錯誤的垃圾壓縮文件... – Blender 2011-05-20 17:30:05

+0

這個問題不是關於閱讀文本,而是閱讀特定流程中的文本。 – navzit 2011-05-20 18:06:14

回答

2

如果是這樣的MSWord,那麼你可以使用帶有Win32::OLE

下面的代碼可能爲你工作,或者至少讓你開始自動化模型:

use strict; 
use warnings; 
use List::Util qw<first>; 
use Win32::OLE qw<in>; 

my $word = Win32::OLE->GetObject('C:\Path\Doc.doc'); 
my $doc = $word->{ActiveDocument}; 
my $col_sect 
    = first { $_-> {PageSetup}{TextColumns}{Count} > 1 } in $doc->Sections 
    ; 
my $text = $col_sect->{Range}{Text}; 
+0

你可能想看看Text :: Extract :: Word,它不依賴於OLE,因此可以在非Windows系統上工作。 (無恥地插入自己的模塊...) – 2011-06-02 00:58:02