2017-07-17 39 views
0
[<div class="nav-wrapper"> 
<p class="navigation-links"> 
<span class="page-numbers current">1</span> 
<a class="page-numbers" href="http://www.example.com/2/">2</a> 
<a class="page-numbers" href="http://www.example.com/3/">3</a> 
<span class="page-numbers dots">…</span> 
<a class="page-numbers" href="http://www.example.com/6/">6</a> 
<a class="next page-numbers" href="http://www.example.com/2/">Next →</a> </p> 
</div>] 

另外,是否有一種簡單的方法來提取頁面導航欄中的最大頁碼數,假設'span class'之後的條目是上限。Python 3.6:美麗的肥皂 - 如何提取div容器中的所有文本?

在此先感謝!

+1

你到目前爲止嘗試過什麼? – Adonis

+0

container = page_soup.findAll(「div」,{「class」:「nav-wrapper」}) container.text 它給出錯誤 – Karan

回答

1
html = '''<div class="nav-wrapper"> 
      <p class="navigation-links"> 
      <span class="page-numbers current">1</span> 
      <a class="page-numbers" href="http://www.example.com/2/">2</a> 
      <a class="page-numbers" href="http://www.example.com/3/">3</a> 
      <span class="page-numbers dots">…</span> 
      <a class="page-numbers" href="http://www.example.com/6/">6</a> 
      <a class="next page-numbers" href="http://www.example.com/2/">Next →</a> </p> 
      </div>''' 
bs = BeautifulSoup(html, "html.parser") 
max_page = bs.find('span', {'class':'page-numbers dots'}).findNext().text 
+0

謝謝! 你能解釋爲什麼bs被分配兩次嗎? &他們是做一個更短的方法嗎? – Karan

+0

對不起,這是錯誤的。編輯。 – Viach

+0

... 不存在時,可以做些什麼?如何提取值呢? 我收到此錯誤 bs.find( '跨',{ '類': '頁面數點'})FindNext中()文本 AttributeError的: 'NoneType' 對象有沒有屬性 'FindNext中' – Karan