2011-01-24 115 views
1

我需要幫助使用java代碼來提取一些圍繞html內容的錨文本的文字。特別是前後兩個錨文本(HTMl塊級元素包括標點符號)。提取錨文本週圍的文字

+0

您應該提供樣本輸入文本和您想要提取的內容。 – dogbane 2011-01-24 11:59:09

+0

例如:href = http:// ....「anchor text」sometext。從這裏我想提取「錨文本」和「錨文本」之後的文本。 – Naveen 2011-01-24 14:16:59

回答

0

你想從href創建新的URL()並只獲得主機部分?看看這個班級。

要找到錨點並獲取href屬性,我推薦Jericho庫。當我需要解析HTML/XML樣本並且不需要XML驗證時,我總是使用它。它使用起來快速簡單,並且在項目頁面上有很多例子。