如何從HTML中提取鏈接（使用python）

因此我已經下載了網頁的HTML。我應該從HTML中提取所有鏈接並輸出它們。這裏是我的代碼如何從HTML中提取鏈接（使用python）

f = open('html.py','r') 
heb = f.readlines() 
arry = [] 
if 'href' in heb: 
    arry = arry.append(href) 

    print(arry)

我想做一個鏈接列表並輸出它，但老實說我很迷路。有人能指引我朝着正確的方向嗎？我想正則表達式可能是去感謝

不要在HTML中使用正則表達式！使用像BeautifulSoup這樣的HTML解析器。 – kevinsa5

[使用python和BeautifulSoup從網頁檢索鏈接]的可能的重複（https://stackoverflow.com/questions/1080411/retrieve-links-from-web-page-using-python-and-beautifulsoup） –

您可以使用美麗的湯（你需要安裝，例如與pip install BeautifulSoup4）的方式：

import bs4 

with open("my-file.html") as f: 
    soup = bs4.BeautifulSoup(f) 

links = [link['href'] for link in soup('a') if 'href' in link.attrs]

2017-06-20 02:02:18 icktoofay

回答