我試圖搶出標題使用網頁的聲明如下:Python的抓鬥從一個HTML的所有鏈接,並只顯示鏈接
titl1 = re.findall(r'<title>(.*?)</title>',the_webpage)
利用這一點,我得到['random webpage example1']
。我如何刪除引號和括號?
使用該
我也想抓住一組每小時改變鏈接(這就是爲什麼我需要通配符):links = re.findall(r'(file=(.*?).mp3)',the_webpage)
。
我得到
[('file=http://media.kickstatic.com/kickapps/images/3380/audios/944521.mp3',
'http://media.kickstatic.com/kickapps/images/3380/audios/944521'),
('file=http://media.kickstatic.com/kickapps/images/3380/audios/944521.mp3',
'http://media.kickstatic.com/kickapps/images/3380/audios/944521'),
('file=http://media.kickstatic.com/kickapps/images/3380/audios/944521.mp3',
'http://media.kickstatic.com/kickapps/images/3380/audios/944521')]
我怎麼沒有file=
的MP3鏈接?
我也想下載的MP3文件,並與該網站的標題追加他們,它會顯示
random webpage example1.mp3
我將如何做到這一點?我仍然在學習Python和正則表達式,這有點讓我感到困惑。
[正則表達式一般不用於解析XML一個很好的候選人/HTML](http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags/1732454#1732454)。您可能會發現[BeautifulSoup](http://www.crummy.com/software/BeautifulSoup/)有用 - 抓取所有鏈接就像「soup.find_all('a')」一樣簡單。看看[文檔](http://www.crummy.com/software/BeautifulSoup/bs4/doc/)。 – 2012-08-01 20:59:18
你應該看看更適合於URL解析的BeautifulSoup。 – xbb 2012-08-01 20:59:50
哦..你可能會發現這有助於格式化你的問題:http://stackoverflow.com/editing-help – 2012-08-01 21:02:09