2010-11-03 78 views
0

我使用document.documentElement.textContent.toLowerCase()來讀取網站文本內容,問題是這個網站在任何真正的文本之前都有這麼多的css和js代碼,我甚至沒有得到完整的文本,它會在CSS的某些部分獲得中繼。從字符串剝離html標記,css和js代碼

如何刪除所有css和js代碼以僅檢索文本內容?

+0

也許樣本來源將幫助 – Prozaker 2010-11-03 01:29:35

回答

0

這是怎麼回事?

var text = document.getElementsByTagName('body')[0].textContent.toLowerCase(); 
+0

是的,這適用於本網站,但所有的網站都有一個身體標記? – gtilx 2010-11-03 01:29:32

+0

@gtilx如果它們是有效的HTML,那麼是的。 – alex 2010-11-03 01:32:35

+0

大多數現代瀏覽器可能會自動提供。 < - 未經檢驗的索賠 – Quickredfox 2010-11-03 03:03:16