如何從html元素獲取href內容

<a href="/apartamento-en-venta/bogota/nicolas_federman-det-2658430.aspx" title="Apartamento en Venta - Bogotá Nicolás de Federmán"> 
    <div> 
     <h2 class="h2-grid"> 
     Apartamento en Bogotá - Nicolás De Federmán 
     </h2> 
    </div> 
    <br/> 
    <div> 
     Cundinamarca 
    </div> 
</a> 
, 
<a href="/apartamento-en-venta/ibague/multicentro-det-2952281.aspx" title="Apartamento en Venta - Ibagué Multicentro"> 
    <div> 
     <h2 class="h2-grid"> 
     Apartamento en Ibagué - Multicentro 
     </h2> 
    </div> 
    <br/> 
    <div> 
     Tolima 
    </div> 
</a> 
, 
<a href="/apartamento-en-venta/bogota/bella_suiza-det-2865659.aspx" title="Apartamento en Venta - Bogotá Bella Suiza"> 
    <div> 
     <h2 class="h2-grid"> 
     Apartamento en Bogotá - Bella Suiza 
     </h2> 
    </div> 
    <br/> 
    <div> 
     Cundinamarca 
    </div> 
</a> 
, 
<a href="/apartamento-en-venta/bogota/cedritos-det-2844663.aspx" title="Apartamento en Venta - Bogotá Cedritos"> 
    <div> 
     <h2 class="h2-grid"> 
     Apartamento en Bogotá - Cedritos 
     </h2> 
    </div> 
    <br/> 
    <div> 
     Cundinamarca 
    </div> 
</a> 
, 
<a href="/oficina-en-venta/bogota/usaquen-det-3036032.aspx" title="Oficina en Venta - Bogotá Usaquén"> 
    <div> 
     <h2 class="h2-grid"> 
     Oficina en Bogotá - Usaquén 
     </h2> 
    </div> 
    <br/> 
    <div> 
     Cundinamarca 
    </div> 
</a>

如何從上面的html元素獲取'aspx'鏈接。從上面的html內容我需要獲取以下值如何從html元素獲取href內容

/apartamento-en-venta/bogota/nicolas_federman-det-2658430.aspx 
/apartamento-en-venta/ibague/multicentro-det-2952281.aspx 
/apartamento-en-venta/bogota/bella_suiza-det-2865659.aspx 
/apartamento-en-venta/bogota/cedritos-det-2844663.aspx

我用下面的Python代碼來獲取html元素，需要知道如何獲得ASPX值 URL =「https://www.fincaraiz.com.co/finca-raiz/?ad=30|2||||1||||||||||||||||||||||1|||1||||||」

import re 
import requests 
from bs4 import BeautifulSoup 
page = requests.get(url) 
soup = BeautifulSoup(page.content , 'lxml') 
index = soup.findAll('div' , 'span-title') 
x = [] 
for i in index: 
    x.append(i.find('a')) 
print (x)

我已經張貼上面的代碼的URL輸入它的Python代碼

來源

2017-09-04 sudharsonn s

你必須使用正則表達式，像 'soup.find（href = re.compile（'''someregex''））' –

您可以使用get('href')找到標籤後。

for i in index: 
    x.append(i.find('a').get('href'))

如果這解決了您的問題，請將此標記爲答案。謝謝！

來源

2017-09-04 16:23:31 chad

它的作用像魅力，解決了我的問題，謝謝再次 –

@sudharsonns你爲什麼不接受答案呢？ –

不幸的是，頁面在這裏加載緩慢，無法接受。只有評論immediatley –

如何從html元素獲取href內容

回答

相關問題