2
我跟着關於JavaScript刮痧很多教程,但我真的不能設法把號碼的開出,從這個表:動態文本刮
http://www.wsj.com/mdc/public/npage/2_3023_creditdervs.html
我嘗試了最後一個Sentdex教程使用此代碼:
import bs4 as bs
import sys
import urllib.request
from PyQt5.QtWebEngineWidgets import QWebEnginePage
from PyQt5.QtWidgets import QApplication
from PyQt5.QtCore import QUrl
class Page(QWebEnginePage):
def __init__(self, url):
self.app = QApplication(sys.argv)
QWebEnginePage.__init__(self)
self.html = ''
self.loadFinished.connect(self._on_load_finished)
self.load(QUrl(url))
self.app.exec_()
def _on_load_finished(self):
self.html = self.toHtml(self.Callable)
print('Load finished')
def Callable(self, html_str):
self.html = html_str
self.app.quit()
def main():
page = Page('http://www.wsj.com/mdc/public/npage/2_3023_creditdervs.html')
soup = bs.BeautifulSoup(page.html, 'html.parser')
tableSup = soup.find_all("td",{"class": "col2 yellowBack"})
print(tableSup)
if __name__ == '__main__': main()
它看起來像我出的目標......大家說話總是與那些出現在網頁源代碼,但隨後在美麗的湯標籤文本消失文本相關的腳本,但我可以」真的找到腳本的屁股與上面的頁面主表中的值相關聯?
任何關於我應該指導我的研究的建議?
太棒了!非常感謝。我注意到
@ user3755529我很樂意提供幫助!你可以找到所有的iframe,然後一次請求每一個iframe,檢查它是否是'(「td」,{「class」:「col2 yellowBack」})',否則你繼續下一個。 –