我正在嘗試創建一個腳本,用於擦除網頁並下載找到的任何圖像文件。如何使用python從網頁下載文件
我的第一個函數是一個wget函數,它讀取網頁並將其分配給一個變量。 我的第二個功能是搜索的一個正則表達式「SSRC =」在一個網頁中的HTML,下面是功能:
def find_image(text):
'''Find .gif, .jpg and .bmp files'''
documents = re.findall(r'\ssrc="([^"]+)"', text)
count = len(documents)
print "[+] Total number of file's found: %s" % count
return '\n'.join([str(x) for x in documents])
從這個輸出是這樣的:
example.jpg
image.gif
http://www.webpage.com/example/file01.bmp
我試圖寫一個使用urllib.urlretrieve(url,filename)下載這些文件的第三個函數,但我不知道如何去做這件事,主要是因爲某些輸出是絕對路徑,而其他人則是相對的。我也不確定如何同時下載這些內容並下載,而不必每次都指定名稱和位置。資源
不要用正則表達式解析html http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags/1732454#1732454 – n1c9