我想從表格標籤內的html代碼中獲取文本,但我沒有得到所有的文本。而是我得到一些部分文本,其餘的被忽略從html表使用beutifulsoup和機械化獲取文本錯誤
這裏是我的輸出代碼:
輸出
Public Sector Organization (Recruitment Test)
Test held on: Saturday, 3rd & Sunday 4th, December 2016
>>>
代碼
import mechanize
from bs4 import BeautifulSoup
import urllib
from PIL import Image
import os
Roll=60170001
url = "http://nts.org.pk/Test&Products/Results/012017/PubSecOrg_24122016_Result/Search.php"
br = mechanize.Browser()
br.set_handle_robots(False) # ignore robots
br.open(url)
br.select_form(nr=0)
rollnumber=str(Roll)
captcha=11111
cap=str(captcha)
br["RollNo"]=rollnumber
br["captcha"]=cap
res = br.submit()
content = res.read()
soup = BeautifulSoup(content,"html.parser")
rolln=soup('table')[2]
rolln=rolln.text.encode('utf-8')
print rolln
請求的輸出是什麼? –
原則上我的輸出應該是表格[2]內的全部文本,這有點像這樣。公共部門組織(招聘測試) 測試時間:2016年12月3日(星期六),3日和4日(星期日)(結果) 上傳日期:週三,2016年11月23日的關鍵字60170001 卷沒有 名稱搜索結果 父親姓名 CNIC 後 NTS商標馬塔斯·阿里 RAHMAN WALI 16101-1938424-7 講師(BPS-17)(電子) 67當前日期/時間:2017年2月22日星期三,09:30:48PM – Mumtaz