我已經創建了一個數據幀說df1。我通過使用df1.cache()來緩存這個。我怎樣才能檢查這是否被緩存? 也有一種方法,以便我能夠看到我所有的緩存RDD或數據框。如何檢查我的RDD或數據幀是否被緩存?
回答
您可以在RDD上調用getStorageLevel.useMemory
來確定數據集是否在內存中。例如:
scala> val rdd = sc.parallelize(Seq(1,2))
rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[1] at parallelize at <console>:21
scala> rdd.getStorageLevel.useMemory
res9: Boolean = false
scala> rdd.cache()
res10: rdd.type = ParallelCollectionRDD[1] at parallelize at <console>:21
scala> rdd.getStorageLevel.useMemory
res11: Boolean = true
@Arnab,
你有沒有發現在Python的功能?
下面是數據幀DF的例子:
DF.cache() print DF.is_cached
希望這有助於。
拉姆
一個什麼樣的例子? DataFrame類中沒有這種方法。 –
is_cached不是一種方法,它是DataFrame類的一個屬性。 – cftarnas
在Java和Scala,下面的方法可以用來找到所有的持久RDDS: sparkContext.getPersistentRDDs()
這裏是鏈接到文件: https://spark.apache.org/docs/2.0.2/api/java/org/apache/spark/SparkContext.html#getPersistentRDDs()
貌似這個方法不可用在蟒蛇尚未:
https://issues.apache.org/jira/browse/SPARK-2141
但人們可以利用這種短期的黑客:sparkContext._jsc.getPersistentRDDs()項目()
謝謝。
開始,因爲火花(斯卡拉)2.1.0,這可以檢查一個數據幀如下:
dataframe.storageLevel.useMemory
- 1. Swift - Parse檢查PFFile是否被緩存
- 2. 我的查詢是否被緩存?
- 3. 我們如何檢查數據幀列的值是否爲空?
- 4. 如何檢查Spark中緩存數據幀/ rdds /表的列表?
- 5. 檢查RDD中是否存在值
- 6. 檢查我的頁面是否被緩存
- 7. 如何檢查RDD是否有效?
- 8. JavaScript:如何檢查文件是否被緩存?
- 9. 如何檢查瀏覽器緩存是否被禁用
- 10. Javascript:如何檢查圖像是否已被緩存
- 11. 保存Neo4j的數據以星火RDD(或)數據幀
- 12. 檢查值是否在數據幀中
- 13. 數據幀,檢查列是否爲空
- 14. 我如何檢查數據是否爲「」
- 15. 如何檢查數據是否被插入或不在存儲過程中
- 16. 如何檢查我是否成功清除IE的緩存?
- 17. 如何檢查查詢緩存中是否存在查詢?
- 18. 如何檢查url是否存在或取消json數據
- 19. 如何檢查數據庫中是否存在表或列?
- 20. Pyspark轉換RowMatrix到數據幀或RDD
- 21. 如何我可以檢查DatagridView的行是否被檢查
- 22. 使用另一個數據幀或RDD搜索數據幀
- 23. 檢查另一個數據幀是否存在多行
- 24. 我如何檢查用戶是否在數據庫中存在或不
- 25. 如何SparkR數據幀轉換爲RDD
- 26. 如何檢查數據是否存在或不在xamarin數據庫
- 27. Firebase如何檢測緩存數據是否可用
- 28. 如何檢查stdin緩衝區是否包含一些數據?
- 29. 如何檢測JavaScript文件是否被緩存?
- 30. 如何使用coldFusion 8檢查緩存是否存在?
謝謝你的答案。 python中是否有類似的函數? – StarLord
我這麼認爲,請確認Python API。 –
我似乎無法找到它,如果您對我的位置有任何想法,請幫助我 – StarLord