2009-12-11 196 views
0

我正在嘗試獲取HTML頁面的子部分。我正在尋找的功能與大多數博客上實現的功能類似。通常,在博客的主頁上,您只能看到帖子的一部分,當您點擊標題時,您將獲得該博客文章的完整內容。 必須有代碼才能獲取該子部分而不會破壞HTML。獲取HTML文檔的子部分

有誰知道有很好的.NET代碼嗎?

編輯:我需要保持內容的HTML格式,所以剝離所有的HTML是不是一個真正的選擇。我不介意以固定長度的內容子字符串(即前800個字符),但不打破HTML將是一場噩夢。

謝謝!

+0

是你的數據源的HTML頁面?或者你有一個數據庫中的條目? – 2009-12-11 17:30:26

+0

我的數據源是一個帶有條目的數據庫,所以我從一個包含我的文章的所有內容的字符串開始。這是SharePoint,因此內容存儲在我的列表的一個字段中。 – 2009-12-11 18:13:34

回答

0

通常這樣做了的方式不是通過分塊了一塊的HTML。相反,有一個包含博客文章的數據庫,而Main頁面有它自己的HTML/CSS,它只動態加載每篇博文的前X個段落。

1

通常總能採取的是博客文章的內容,一個子博客文章被渲染成HTML之前。

+0

但是,那麼你會失去你的文章(鏈接,表格等)的所有HTML? – 2009-12-11 17:01:15

+0

你需要從你的帖子中去掉html標籤 - 丹尼爾斯回答鏈接是一個很好的方法。 – Justin 2009-12-11 19:46:50

1

這不會通過直接切割頁面輸出(與HTML混合)來完成。

手柄與服務器端代碼顯示該博客的內容的修剪。

0

在我看來,「可能有用的最簡單的東西」是掃描您想要總結的博客文章,直到您找到第一個近段</p>標記。

不要被誘惑scan the HTML with a regex