給定一個HTML頁面我想獲取嵌入在HTML文件中的所有'x'文件或通過它鏈接,其中'x'等於:從HTML頁面(任何語言)解析多媒體文件
- 圖片(JPG,PNG,GIF ...)
- 文檔(Word,PowerPoint中,PDF ...)
- 的Flash(FLV的,瑞士法郎)
我如何做這個?
- 因此,圖像很容易提取,因爲它們或者鏈接到以(.png | .jpg | ....)結尾的鏈接,或者它們嵌入了img標記。
- 文檔不能嵌入,它們只能鏈接到(鏈接以.doc | .ppt | .pdf | ...結尾)。所以他們也很容易得到。
這裏是我的問題:
如何獲得嵌入在網頁中的Flash文件?
請給我一個僞算法或正則表達式模式。
如果我上面的觀點(1和2)錯了,請告訴我。
謝謝!