2008-09-17 50 views
1

我正在做一個個人的,只是爲了好玩,使用屏幕抓取的項目給我一個系統托盤通知,以防添加,修改或刪除HTML表格上的另一行。除了正則表達式之外,還有另一種方法可以屏幕抓取嗎?

之前做過這些之前我想:我們來看看正則表達式的東西,就是這樣,但作爲一個好奇的人,讓我覺得可能有其他東西可以有另一個範例,但是要儘可能簡單使用。

我瞭解DOM和X-Path以及所有xml'ish方法。我正在尋找盒子外的東西,甚至可以在一組規則中定義,這樣您就可以製作一個插件系統來聚合各種網站。

回答

-1

如果你可以使用的東西源轉換成有效的XHTML/XML像SgmlReaderHtmlTidy那麼你可以使用XSLT。只需爲每個想要抓取的網站創建一個XSL模板。

+0

現在有兩個問題 - 解析HTML和管理XSLT,而「解決方案」比原始問題困難。 – 2008-11-21 18:18:58

0

這裏有一個想法:假設你的主要使用案例越來越每當一個HTML文件的變化,爲什麼不使用經過更改的行一個標準的diff工具,然後循環,將您的規則的通知?此外,如果您有權訪問服務器和您正在觀看的文件,您可以使用CVS(或類似軟件)將所有內容都放在源代碼控制之下,然後只需觀察提交。如果您想將此方法用於網絡上的隨機網站,只需編寫一個腳本,該腳本會定期下載相應網址的html,然後將其提交到源代碼管理並觀看差異。

不是很實用,但在盒子外面。

相關問題