我在運行在AWS EMR中的hadoop集羣上安裝了hive 0.8。通過Python客戶端的Hive查詢
我想做一些數據QA,它涉及到運行一個蜂巢式查詢,並將結果提取到python中,其中包含更多的邏輯。
目前,這是通過發送一個配置單元查詢作爲jobflow步驟,將這些結果轉儲到主節點上的本地存儲,SCP將這些結果送到本地機器,然後用python加載文件並解析結果。總而言之,不是一個非常有趣的過程。
理想情況下,我能做到這一點的類似的方式:
conn = hive.connect(ip, port, user, pw)
cursor = conn.cursor()
cursor.execute(query)
rs = cursor.fetchall()
看來,這是假想可能。 Hive說它支持它here。還有另外一個SO question,看起來好像在做我想做的事情。
但是,我無法找到文檔。特別是,我還沒有弄清楚在哪些地方獲得這些例子中使用的包裝。如果有人能夠提供關於如何讓python客戶端工作的詳細指示信息,將會非常有幫助,但如果沒有這樣做,那麼知道在哪裏獲得這些包會有所幫助。