從html表使用beutifulsoup和機械化獲取文本錯誤

我想從表格標籤內的html代碼中獲取文本，但我沒有得到所有的文本。而是我得到一些部分文本，其餘的被忽略從html表使用beutifulsoup和機械化獲取文本錯誤

這裏是我的輸出代碼：

輸出

Public Sector Organization (Recruitment Test) 
Test held on: Saturday, 3rd & Sunday 4th, December 2016 
>>>

代碼

import mechanize 
from bs4 import BeautifulSoup 
import urllib 
from PIL import Image 
import os 


Roll=60170001   

url = "http://nts.org.pk/Test&Products/Results/012017/PubSecOrg_24122016_Result/Search.php" 

br = mechanize.Browser() 
br.set_handle_robots(False) # ignore robots 
br.open(url) 
br.select_form(nr=0)                
rollnumber=str(Roll) 
captcha=11111 
cap=str(captcha)       
br["RollNo"]=rollnumber 
br["captcha"]=cap 
res = br.submit() 
content = res.read() 
soup = BeautifulSoup(content,"html.parser") 
rolln=soup('table')[2] 
rolln=rolln.text.encode('utf-8') 
print rolln

來源

2017-02-21 Mumtaz

請求的輸出是什麼？ –

原則上我的輸出應該是表格[2]內的全部文本，這有點像這樣。公共部門組織（招聘測試）測試時間：2016年12月3日（星期六），3日和4日（星期日）（結果）上傳日期：週三，2016年11月23日的關鍵字60170001 卷沒有名稱搜索結果父親姓名 CNIC 後 NTS商標馬塔斯·阿里 RAHMAN WALI 16101-1938424-7 講師（BPS-17）（電子） 67當前日期/時間：2017年2月22日星期三，09：30：48PM – Mumtaz

這種方法似乎是做你想做的。

>>> content = open(r"C:\scratch\___National Testing Service___.html").read() 
>>> from bs4 import BeautifulSoup 
>>> soup = BeautifulSoup(content, 'lxml') 
>>> tables = soup.findAll('table') 
>>> len(tables) 
8 
>>> tables[2].text 
'\n\n\n\n\n\n\n\n\n\n\n\n\n\n\nPublic Sector Organization (Recruitment Test)\nTest held on: Saturday, 3rd & Sunday 4th, December 2016\n\n       \n       (Result)\n\n\n\n\n\n        Search Result for the keyword "\n        60170001        \n"\n\n\n\nRoll No\nName\nFather Name\nCNIC\n\nPost\n\n\nKDPH\n\n\nNTS Marks\n\n\n\n60170001\nSARA ISLAM        \nNAZAR UL ISLAM \n17301-2406027-4 \n\n Assistant Manager(Electronics Engineering) \n\n\n  \n\n\n 63 \n\n\n\n\n\n\n\n\n\n\nCurrent Date/Time: Tuesday 21st, February 2017 , 11:49:59 PM       \n\n\n\n\n\xa0\n\n'

假設mechanize給你相同的格式，我是能夠在Chrome瀏覽器中打開網頁並保存你應該確定獲得簡單的文件。

來源

2017-02-21 18:58:16

非常感謝..最後它完美地工作。剛剛安裝了lxml。 – Mumtaz

不客氣。我無法確定問題可能是什麼。 –

從html表使用beutifulsoup和機械化獲取文本錯誤

回答

相關問題