2010-05-07 108 views
0

對於翻譯程序,我試圖從HTML文件中獲取95%準確的文本,以便翻譯句子和鏈接。從HTML頁面中提取所有文本而不會丟失上下文

例如:

<div><a href="stack">Overflow</a> <span>Texts <b>go</b> here</span></div> 

應該給我2個結果翻譯:

Overflow 

Texts <b>go</b> here 

任何可以解決此問題的建議或商業包裝?

+0

需要更多關於您的要求的信息,因爲您發佈的示例沒有意義。您似乎將您的「span」標記視爲塊級項目,但它們不是。 – ceejayoz 2010-05-07 03:13:09

回答

0

我不完全確定你在問什麼,但看看simplehtmldom。具體來說,在該首頁的快速啓動下的「從HTML提取內容」標籤(不能直接鏈接,嘆息)。有了這個,你可以提取一個網站的文本,沒有所有討厭的標籤。

相關問題