2010-02-10 56 views
2

如果我正在創建一個簡單的網頁抓取工具(從根網址抓取所有鏈接,然後從這些鏈接抓取所有電子郵件),使用HTML敏捷包是否值得?我實際上並沒有瀏覽HTML標籤,我只是想在整個文檔中掃描電子郵件。HTML敏捷包vs正則表達式

使用HTML敏捷包會更高效嗎?

我嚴格剝離它們,因爲它是必要的我有這些電子郵件,並且有大約100個鏈接。只有大約500封電子郵件將被抄襲。不用擔心,我在這裏牢記道德規範。

+0

在HTML文件中刮掉電子郵件地址。尼斯。 – 2010-02-10 13:46:18

回答

2

關於這個問題有很多問題 - 我讀過的大多數人都說 - 不使用正則表達式進行網頁報廢。另一方面 - 如果所有你想要的都是文本解析,而不考慮文本的HTML性質(如果我正確理解你的話,你會這樣做),那麼使用正則表達式可能會更好。

+0

謝謝,這正是我發佈這個的原因。我已經閱讀了很多關於這個...的線索,但是如果你不關心它是否包含HTML,那麼就不會。 – cam 2010-02-10 13:51:34