2011-02-06 106 views
1

我正在嘗試將自定義HTML轉換爲使用Wordpress帖子作爲源的LaTeX轉換器。使用PHP將HTML轉換爲另一種語法(LaTeX)

基本上,它需要做一些 「取代」,如:

<h2>H2 Title</h2> 
<p>Text text text</p> 
<img src="/image.png" alt="Image ALT tag" \> 

對此

\begin{document} 

    \section{H2 Title} 

    Text text text 

    \shorthandoff{=} 
    \begin{figure}[H] 
    \centering 
    \includegraphics[scale=0.7]{./img/image.png} 
    \caption{Image ALT tag} 
    \end{figure} 
    \shorthandon{=} 

    \end{document} 

我應該使用哪種方法?是否有一個HTML DOM解析器 允許替換這樣的 ?還是其他建議?

更新:有沒有什麼辦法可以正確地走在PHP的HTML DOM樹中?我試過RecursiveDOMIterator(http://stackoverflow.com/questions/4431142/loop-through-all-elements-of-body-tags-using-dom),但我無法獲得成功的結果。

謝謝。

+1

你看看:http://html2latex.sourceforge.net/ – RobertPitt 2011-02-06 19:52:45

回答

0

根據您帖子中HTML結構的複雜程度,您可以使用正則表達式替換(如果標記相當簡單,如您的示例中所示)。如果你想將複雜的結構(嵌套元素)複製到LaTeX中,那麼正則表達式可能不起作用。

+1

即使有可能使用正則表達式解析Hazar任務所需的HTML子集,仍然不可取。這在處理屬性時會很快變得笨拙,並且不會提供構建LaTeX文檔所需的樹狀數據結構。 – 2011-02-06 21:22:11