我有包含約1000條微博的HTML源代碼(每行一條推文)。大多數推文如下所示。我正在使用delphi備忘錄嘗試使用Pos函數和刪除函數去除HTML標記,但失敗了。如何從這種類型的html源文件中提取文本?
<div id='tweetText'> RT <a onmousedown="return touch(this.href,0)" href="http://twitter.com/HighfashionUK">@HighfashionUK</a> RT: Surprise goody bag up 4 grabs, Ok. <a onmousedown="return touch(this.href,0)" href="http://plixi.com/p/57846587">http://plixi.com/p/57846587</a> when we get 150</div>
我想要去除HTML標記和只有:
RT: Surprise goody bag up 4 grabs, Ok. http://plixi.com/p/57846587 when we get 150
我怎樣才能提取德爾福這樣的文本?
非常感謝您提前。
更新:
科斯明Prund是正確的。我錯誤地跳過了一部分。我想要的是:
RT @HighfashionUK RT: Surprise goody bag up 4 grabs, Ok. http://plixi.com/p/57846587 when we get 150
Cosmin Prund很棒。
你確定你不能只使用Twitter API嗎? – 2011-04-19 13:56:36
你想要提取什麼?您似乎只想要文本(即:忽略所有標籤),但您跳過了第一個定位標籤(@HighfashionUK)的內部文本。那是故意的還是錯誤的? – 2011-04-19 14:00:46
在關閉'dupe'之前:如果OP想要刪除所有HTML標記並僅保留文本,這不是一個騙局。您無需解析HTML即可完成此操作。 – 2011-04-19 14:13:42