我是PySpark的新手。 我有2個表,1:索引表和2:圖表中顯示的值表。 根據PySpark和HBase中另一個表的索引有效掃描表格
我想知道這樣的一個有效的方法如下:
- 通過表1上運行掃描,並獲得該指數
- 運行通過表2的掃描,並獲得對應於給定索引
然後值I有多個這樣的(Key-Index)表和(Index-Value)表。 請讓我知道執行這些掃描的最高效和PySpark方式。 我想知道這樣的一種方式:
rdd1 = scan 'table1' {FILTER => key ='some value'} # Will get Index values rdd2 = scan 'table2', {STARTROW => The Results of table 1}
所以,如果RDD1集返回10行,那麼,在這10行的索引字段中的值將用來掃描表2,並得到來自table2的值。 這使我依次在table2上運行10次掃描,並最終耗費大量時間。 我想知道一種方法來平行掃描表2, rdd1.map(lamba x: scan table2
給我錯誤,因爲我最終掃描內部掃描,我不能這樣做。
如果您認爲效率更高,請提供其他方法。 感謝
Dataframes
而不是RDD
什麼
請刪除圖像並將其作爲示例數據發佈。同時顯示你已經嘗試了什麼,以及你得到的錯誤。 「我們不允許這樣做:rdd.map(anotherRDD)」沒有意義?效率是主觀的。 – Pushkr
@Pushkr我試圖詳細闡述一下,但我無法在這裏分享數據。請讓我知道如果你仍然覺得困惑,我會盡可能清楚地解釋整個情況。 –