2009-07-09 73 views
0

給定一個HTML頁面我想獲取嵌入在HTML文件中的所有'x'文件或通過它鏈接,其中'x'等於:從HTML頁面(任何語言)解析多媒體文件

  • 圖片(JPG,PNG,GIF ...)
  • 文檔(Word,PowerPoint中,PDF ...)
  • 的Flash(FLV的,瑞士法郎)

我如何做這個?

  1. 因此,圖像很容易提取,因爲它們或者鏈接到以(.png | .jpg | ....)結尾的鏈接,或者它們嵌入了img標記。
  2. 文檔不能嵌入,它們只能鏈接到(鏈接以.doc | .ppt | .pdf | ...結尾)。所以他們也很容易得到。

這裏是我的問題:

如何獲得嵌入在網頁中的Flash文件?

請給我一個僞算法或正則表達式模式。

如果我上面的觀點(1和2)錯了,請告訴我。

謝謝!

回答

0

Firefox擴展DownThemAll,您可以用鼠標右鍵單擊頁面並下載所有指定分機的媒體。它是開源的,所以你可能想看看他們的代碼,看看他們是如何實現它的。

0

我會使用一個基於事件的XML解析器(如SAX)和寫的和標籤的規則,以獲得SRC和HREF屬性。