2012-02-10 138 views
0

我已經從網頁中提取html源碼,並想知道如何從該源文件中提取電子郵件地址等文本。使用jsoup像
從html源碼中提取電子郵件地址

public static String html2text(String html) { 
    return Jsoup.parse(html).text(); 
} 

但是這會給我很多不需要的文本,以及即時通信思考。

+0

你正在使用java我猜,但你沒有在問題中標記它。你也可以使用JavaScript/jQuery?這是非常簡單的使用正則表達式,但我沒有經驗的Java。 – elclanrs 2012-02-10 05:59:57

+0

我正在使用java。忘了提到這一點。 – SoH 2012-02-10 07:38:30

回答

0

您可以去除所有標籤(除非電子郵件位於標籤內)。然後,應用正則表達式或檢查每個單詞是否符合電子郵件模式。如果在單詞中包含@,並且在後面找到.,我通常會將其標記爲電子郵件。根據標準電子郵件格式,許多電子郵件將不匹配(例如,"hello [email protected]")。是的電子郵件支持@之前的空格字符!

0

正如Shiplu所說,我認爲最好的解決方案是使用正則表達式,如果您使用的是Java,請查看Pattern和Matcher類。