2013-03-07 60 views
0

我還沒有玩過正則表達式,並正在尋找一些幫助,以找到字符串中的部分。正則表達式在html中找到<img src='url' />

例IMG標籤:

<img border="0" alt="background, images, scarica, adobe, art, rainbow, colorful, wallpaper, tutorial, abstract, photoshop, web, pictures, wallpapers" width="192" height="120" class="h_120" src="http://static.hdw.eweb4.com/media/thumbs/1/74/736679.jpg" />

我只是試圖讓SRC的URL了大量HTML文件。

+2

使用HTML解析器。 – SLaks 2013-03-07 19:06:50

+1

它已經被一次又一次地說過了,但是你不應該使用正則表達式來解析HTML,這不是一種常規的語言。你使用哪種語言? – 2013-03-07 19:07:20

+0

你真的需要閱讀[這是關於在HTML上使用正則表達式的問題](http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags) – 2013-03-07 19:07:29

回答

2

使用BeautifulSoup

from bs4 import BeautifulSoup 

soup = BeautifulSoup(html_doc) 
page_images = [image["src"] for image in soup.findAll("img")] 

使用安裝BeautifulSouppip install beautifulsoup4