2015-09-19 192 views
1

我試圖找到頂級域信息。Python正則表達式Findall

如果我要搜索「https://testwebsite.com.au/folders/viewforum.php?f=1556n」我只希​​望我的表情中找到「https://testwebsite.com.au

我用下面的表達式:

urlRegex = re.compile(r'''((https?|sftp|ftp|file)://[-a-zA-Z0-9+&@#/%? 
      =~_|!:,.;'"*$()]*[a-zA-Z0-9+&@#/%=~_|] )''', re.VERBOSE) 
+2

也許更好地利用https://docs.python.org/2/library/ urlparse.html – comalex3

+0

我會從一個html解析器開始 –

回答

0

如果你想成爲嚴格和正確的,使用真正的URL解析器。如果你正在尋找的東西快速和骯髒的,將針對URL的99%的工作,你會發現,怎麼樣:

urlRegex = re.compile(r'([a-zA-Z]+://[^/\s]+)')