如何從LaTeX文檔中提取重要的文本內容

我需要提取純文本內容來自我在LaTeX中撰寫的論文文檔中的自動反抄襲檢查。我只知道「草稿」選項，這是不夠的。如何從LaTeX文檔中提取重要的文本內容

我應該忽略：

它也很高興刪除所有的參考。輸出應該是一個普通的（UTF-8編碼）文本文件。

有沒有簡單的方法來做到這一點？我真的不喜歡手動逐頁複製它。

2011-01-29 odiroot

讓我猜測 - 您所在機構的反剽竊軟件僅適用於MSWord文檔和純文本文件？ – Spacedman 2011-01-29 14:30:44

好猜Spacedman，但只有純文本。我想這是合理的，因爲自動化不是那麼容易。 – odiroot 2011-01-29 15:54:44

您可能會在[TeX SE站點]（http://tex.stackexchange.com）上獲得更多答案。 – frabjous 2011-02-01 20:40:48

您可以嘗試使用評論軟件包（或十幾種選擇之一）將等式，圖形，表格等轉換爲評論環境和\ renewcommand \ footnote [1] {}以刪除腳註。 \ pagestyle {空}應該刪除頁面標題等，所以對結果運行pdftotext應該接近你想要的。

2011-01-29 14:07:47

是：untex，一個簡單的C腳本。你也可以看看detex。

2011-01-29 14:04:31 huitseeker

我試過detex，它確實有幫助，但仍然產生了很多cruft。不管怎麼說，還是要謝謝你。 – odiroot 2011-01-29 14:54:53

您可以使用文檔轉換器，如pandoc，或將輸出的PDF轉換爲類似Calibre之類的純文本。

2011-02-01 20:42:34 frabjous

通常你需要對文本做了一些乳膠加工，說你有

\ newcommand * {\ SO} {StackOverflow的\ {指數StackOverflow上} \ xspace}

...

我花了很多時間在\ SO，等等等等 ....

這裏只是過濾掉文本段落不會給一個信息L當它包含任何宏時，它會收到預期的結果。

因此試圖直接從* .tex文件中提取東西通常會留下很多結果。因此，對膠乳加工的產量進行處理通常會更好。我會建議將膠乳轉換爲HTML，然後從HTML轉換爲文本。您可能需要一些手動清理，但我認爲它應該相對接近。

2011-02-01 22:34:33 hlovdal

儘管已經提到了克雷克斯，但還有另一個項目旨在改進它。它被稱爲opendetex，給它一看！

2011-02-04 03:03:28

回答