Q

強制HTML段中的結束標籤或忽略缺失的結束標籤

2009-08-22 132 views 0 likes

0

創建顯示較大html文檔的子集（前x個字符）的rss供稿時，我遇到了一些問題，其中一些標籤以「前x個字符「但結束標籤超出了該範圍。如果Feed的使用者試圖呈現Feed中的HTML，則這可能會導致一些有趣的問題，因爲它可能會在顯示Feed的頁面中導致意外的呈現問題。強制HTML段中的結束標籤或忽略缺失的結束標籤

我假設這是rss feed作家和讀者很久以前解決的常見問題，但我似乎無法弄清楚如何實現它，試圖解析html中的feed並添加缺少的結束標籤可能會變得混亂。任何建議，將不勝感激。提前致謝。

克里斯

2009-08-22 Chris Dellinger

A

回答

0

如果您使用PHP，一個優秀的解決方案是HTMLPurifier。它將清理它並使其完全安全地重新傳輸。

2009-08-22 13:17:18 DGM

+0

感謝您的建議，不幸的是，這是一個.NET項目，所以技術上明智這不適合，但我會記住這在PHP的其他項目。 – 2009-08-23 02:08:39

0

不知道這是否適用於您的項目，但我在FeedDemon中使用了HTML Tidy。

2009-08-22 14:46:08

+0

謝謝。聽起來很有希望。我會在進一步調查後回覆。 – 2009-08-23 02:09:10

0

大文件從哪裏來？如果有生成HTML的源文本，那麼很多更容易截斷它，並從截斷版本重新生成HTML，而不是處理部分HTML的處理問題。要正確地做到這一點，基本上需要重新解析和重新編譯HTML。無論如何，在RSS裏面的HTML仍然很麻煩。你可能會更好地去掉所有的標籤，並在剩下的部分做一個簡單的文本截斷。

2009-08-22 21:43:39 bobince

+0

較大的文檔來自用戶從YUI Rich文本編輯器輸入的文本。更經常地，本文中將包含HTML格式。 – 2009-08-23 02:10:41

+0

這很不幸。處理一般的HTML非常難以正確執行，特別是關心安全性。您可能必須獲得全面的HTML解析器，將輸入變爲DOM或類似的對象樹，然後在重新序列化之前刪除位。 – bobince 2009-08-23 11:01:27

+0

（這基本上是Tidy或Purifier會在內部完成的。） – bobince 2009-08-23 11:02:18

相關問題