2017-02-23 99 views
0

我試圖運行GCP回購在數據科學的代碼,並不斷撞擊在梁代碼中的錯誤。阿帕奇梁在Python,誤差beam.io.TextFileSource

這是給出了一個錯誤行: beam.Read(beam.io.TextFileSource( 'airports.csv.gz')

這裏是我得到的錯誤: AttributeError的: '模塊'對象有沒有屬性「TextFileSource」

下面是完整的文件: https://github.com/GoogleCloudPlatform/data-science-on-gcp/blob/master/04_streaming/simulate/df01.py

有誰知道如何得到這個工作,或者說我缺少的是什麼

回答

0

看來您使用的是舊版本的apache-beam/cloud-dataflow。

務必:

pip freeze | grep dataflow

當我這樣做,我得到:

google-cloud-dataflow==0.4.3

如果你的版本,你得到的是舊的,請嘗試:

pip install google-cloud-dataflow

a nd重複pip凍結命令。如果你一直得到的是舊版本,那麼你在Python庫地獄,我建議使用的virtualenv,以確保您使用的是最新版本的所有包...

+0

謝謝,Lak。我使用的數據流的版本更新:谷歌 云爲數據流== 0.5.5 也許SDK改變了,因爲我無法找到的文檔的TextFileSource方法。我嘗試提取.gz文件並使用ReadFromText方法,但遇到其他錯誤。我會檢查出virtualenv並嘗試運行。 – Geoff

+0

我也使用谷歌雲,數據流== 0.6.0和腳本df03.py failed.I想知道如果蘭將審查與新的模塊代碼apache_beam.io.gcp –

+0

對不起,我改變使用代碼beam.io.ReadFromText,但似乎我錯過了幾個地方。我對df03.py df04.py和df06.py進行了更改,並將它們簽入。它現在應該可以正常工作。 – Lak