我想找出處理下列數據的最佳方法。我正在抓取一個網站,並使用文本(.prn)文件(打印文件,這是帶有我想要的數據的文件,我認爲這會比Adobe Acrobat文件更好)從中收集數據。我的問題是當我將數據帶入python時:數據一次只能在屏幕上垂直向下一個字母,所以即使有多行,這些數據也只是在一列上流入。我想知道是否有人會知道如何使數據進來,在一個更傳統的方式,我可以在行[0],行[1]等... 這是我的代碼,以防它有助於你也可以看到我嘗試過的其他一些功能)。格式化來自文本(.prn)文件的數據
import os
import urllib
import urllib2
import string
import sys
import os
from bs4 import BeautifulSoup
import csv
import mechanize
from numpy import*
import datetime
import traceback
from pylab import*
site="http://www.treasurydirect.gov/govt/reports/pd/mspd/mspd.htm"
br = mechanize.Browser()
br.set_handle_equiv(False)
br.open(site)
print 'br.title',br.title()
allforms = list(br.forms())
br.form = allforms[0]
br.follow_link(text_regex="February", nr=0)
#br.click_link(text='February', nr=0) # this works to
#next page
print br.title()
allforms = list(br.forms())
print allforms
br.form = allforms[0]
getstuff=br.click_link(text="Text (.prn)", nr=0) # this works to
#getstuff= br.click_link(text="Adobe Acrobat (.pdf)", nr=0) Adobe Acrobat (.pdf)
br.open(getstuff)
csvData=br.response().read() # use read to BeautifulSoup(x)
#site = BeautifulSoup(csvData)
#print site
for row in csvData:
print row[0]
這裏是確切的網站頁面,文本(.PRT)文件是: http://www.treasurydirect.gov/govt/reports/pd/mspd/2013/2013_feb.htm
我試圖以處理文本(.PRN)下的數據摘要文件。 請給出處理數據的最佳方法的建議。
我使用python27,機械化,美麗的湯和urllib的
只想說,這是我收到過的最令人驚訝的答案,我從中學到了很多,仍然使用腳本上週到每月。謝謝furins – user1087809 2013-12-10 15:48:00
你很好,讓我知道!我很高興我的回答幫助你! – furins 2013-12-12 16:03:19