0
我在電腦上的.txt
文件中保存了網站的HTML代碼。我想用下面的代碼來提取這個文本文件中的所有URL:如何從HTML代碼中正確提取網址?
def get_net_target(page):
start_link=page.find("href=")
start_quote=page.find('"',start_link)
end_quote=page.find('"',start_quote+1)
url=page[start_quote+1:end_quote]
return url
my_file = open("test12.txt")
page = my_file.read()
print(get_net_target(page))
然而,腳本只打印第一網址,但並非所有的其他環節。爲什麼是這樣?
謝謝您的回覆!我是python新手,你能舉一個例子來說明如何實現這個嗎?這將是非常有益的。 – jakeT888
我已經用示例代碼更新了答案,以幫助您瞭解使用自己的起始代碼的算法。 – SegFault