與Python

-1

我目前的工作，從一個股票網站與Python

http://markets.usatoday.com/custom/usatoday-com/html-mktscreener.asp

我需要提取的所有列符號提取信息的Python程序中提取。在此計劃之前，我必須創建一個bash腳本，每分鐘下載頁面1小時以獲得60頁。我已經完成了。但我不明白如何提取信息，所以我可以將這些信息注入MySQL數據庫。

import libxml2 
import sys 
import os 
import commands 
import re 
import sys 

import MySQLdb 

from xml.dom.minidom import parse, parseString 

# for converting dict to xml 
from cStringIO import StringIO 
from xml.parsers import expat 

def get_elms_for_atr_val(tag,atr,val): 
    lst=[] 
    elms = dom.getElementsByTagName(tag) 
    # ............ 

    return lst 

# get all text recursively to the bottom 
def get_text(e): 
    lst=[] 
    # ............ 
    return lst 
def extract_values(dm): 
    lst = [] 
    l = get_elms_for_atr_val('table','class','most_actives') 
    # ............ 
    # get_text(e) 
    # ............ 
    return lst

我是python的新手，這是最好的。有60個HTML頁面下載，我需要做的只是從1頁提取信息，我相信或者至少如果我可以從1頁開始，我可以找出其他人的循環，並提取該信息以便使用在MYsql中

任何幫助讓我開始感謝！

來源

2013-05-05 user2340513

使用一個強大的HTML解析器，而不是xml模塊，因爲後者將拒絕惡意文件，如URL你指出的似乎是。這裏有一個快速的解決方案：

from lxml.html import parse 
import sys 

def process(htmlpage): 
    tree = parse(htmlpage).getroot() 

    # Helper function 
    xpath_to_column = lambda expr: [el.text for el in tree.xpath(expr)] 

    symbol = xpath_to_column('//*[@id="idcquoteholder"]/table/tr/td[1]/a') 
    price = xpath_to_column('//*[@id="idcquoteholder"]/table/tr/td[3]') 
    volume = xpath_to_column('//*[@id="idcquoteholder"]/table/tr/td[6]') 

    return zip(symbol, price, volume) 


def main(): 
    for filename in sys.argv[1:]: 
     with open(filename, 'r') as page: 
      print process(page) 


if __name__ == '__main__': 
    main()

你將不得不在這個例子中詳細一點，因爲一些元素（如「符號」）在span或a節點被進一步遏制，但精神是：使用XPath查詢並提取列內容。根據需要添加列。

提示：使用Chrome Inspector或Firebug獲取正確的XPath。

編輯：通過命令行這個腳本上的所有文件名。如果需要分別處理每個文件，請在main()中刪除for循環。

來源

2013-05-05 20:49:05

事情是不是用我使用bash腳本，我不得不創建一個下載頁面，並調用Python代碼下載網頁的網站。這些頁面被標記爲這樣UsaToday-2013-05-16-00.html - UsaToday-2013-05-16-59.html – user2340513 2013-05-05 21:56:51

回答

相關問題