我試圖使用正則表達式來提取某些網址的特定部分,這些網址出現在不同的變體中。 這裏是通用的格式:使用正則表達式提取網址的一部分
http://www.blackpages.com/cityName-StateName/mip/part-I-want-to-extract/randomCharacters
有時是 「MIP」 部分不存在,網址如下:
http://www.blackpages.com/cityName-StateName/part-I-want-to-extract/randomCharacters
我開始寫以下RE:
re.compile("blackpages\.com/.*")
.*
匹配任何字符現在,當遇到「/」並在遇到下一個「/」之前提取所有後續內容時,我該如何停止?這會給我我想要提取的部分。
拉克什,任何更多的關注?請隨時在我的答案下面放一行。 –