2012-02-29 52 views
1

的HTML是一種標記語言,有很多東西混合。但是我想從網站中提取人類可讀的數據來做一些內容分析。但我所能看到的僅僅是html代碼。我可以逐個提取所有HTML標籤以提取文本並將其映射出去。 (至少,我可以grep大部分數據,而不是JavaScript的插入的數據)而不是做這個的,我可以有一個更有效的方式來做到這一點?謝謝。這是可以提取從HTML SRC人類可讀的內容?

***用java作爲編程語言

+0

什麼(編程)語言?大多數語言都有一些*剝離* HTML標籤的軟件包。 – deceze 2012-02-29 01:33:34

回答

0

您可以嘗試使用一個終端模式的瀏覽器,如猞猁呈現網站爲純文本,然後做內容分析,它的輸出。