bigdata

0熱度

1回答

我有一個系統，其中REST API（Flask）使用spark-sumbit將作業發送到運行正常的pyspark。由於各種原因，我需要spark來同時運行所有任務（即，我需要設置executors的數量=運行時的任務數量）。例如，如果我有20個任務，只有4個內核，我希望每個內核執行5個任務（執行程序），而不必重新啓動火花。我知道我可以在啓動spark時設置執行程序的數量，但我不想這樣做，因爲s

0熱度

1回答

無法使用Sqoop

我嘗試使用下面的命令從Oracle XE數據庫的數據導入到HDFS從Oracle數據導入到HDFS： sudo sqoop import -connect jdbc:oracle:thin:system/[email protected]:1521:xe -username system -P -table employee -columns "ID" -target-dir sqoopoutpu

-2熱度

1回答

如何製作網站，使用分佈式文件系統 - hadoop進行數據管理

我對大數據技術很無知，並且好奇地將它與傳統的應用程序開發聯繫起來。開發任何Web應用程序的傳統方法是有一個託管服務器（或應用程序服務器）和一個數據庫來管理數據。但讓我們說，我有一個由網站生成的龐大數據集（即每秒GBs），那麼網站將屬於管理大數據的範疇。讓我們假設，我有一個20臺計算機的集羣，200GB的硬盤和核心i3處理器。所以現在我將擁有足夠的處理和存儲能力的網站。（當然，如果我需要更多

0熱度

1回答

在Shiny中共享用戶會話之間的反應數據集

我有一個相當大的反應數據集，它是通過輪詢文件，然後在預定義時間間隔內讀取該文件而得到的。數據經常更新並需要不斷重新加載。無可否認，重新加載可以逐步完成並附加到R中的現有對象，但不是。不過目前，這個動作是針對閃亮應用的每個用戶完成的，儘管數據在會話中是相同的。我想出了一個有關解決方案的唯一方法是確定會話是否是第一個，並讓該會話成爲通過輪詢更新數據的主數據。如果仍然存在master，則後續會話不進行

0熱度

1回答

將Spark工作寫入本地文件系統還是從本地文件系統讀取？

對於Spark作業，其輸入和輸出都在HDFS中。但是，我想知道，在執行Spark作業期間，是否有任何需要寫入本地文件系統或從本地文件系統讀取的內容？

-1熱度

2回答

Informatica的分揀機改造性能tunning

我對着下面警告在會話日誌緩存創建分揀機改造中的Informatica的PowerCenter **警告在會話日誌。* 分揀轉型[HIGHYIELDSPRDDELTA]需要2遍排序（1-pass temp I/O：23224320字節）。對於1-pass內存中排序，您可以嘗試將高速緩存大小設置爲30 MB或更高。在網絡上，人們認爲計算文件和硬編碼在分揀機改造的性能數據的大小，但不是我們的項目可行

0熱度

1回答

如何從文件傳遞配置參數作爲火花作業的環境變量？

正在運行一個Spark應用程序，它將使用文件中的配置參數。文件： - Spark.conf username=ankush password=ankush host=https:// port=22 outputDirectory=/home/ankush/data/ 如何在運行時使用此文件。而不是在我們對配置文件進行更改時重新啓動作業如何使作業動態地在運行時選擇文件。我試圖使用

1熱度

2回答

查詢失敗錯誤：在查詢執行過程中超出資源：查詢無法在分配的內存中執行

我正在使用標準SQL。儘管它的基本查詢仍然存在引發錯誤的問題。任何建議請 SELECT fullVisitorId, CONCAT(CAST(fullVisitorId AS string),CAST(visitId AS string)) AS session, date, visitStartTime, hits.time, hits

1熱度

2回答

從數據庫讀取數據並寫入本地驅動器，大數據

我想從netezza databse獲取5 GB的數據並將其寫入本地驅動器。我試過以下： pd.concat([chunk for chunk in (pd.read_sql("""SELECT * FROM table""",conn,chunksize=10000))]).to_sql('table1',conn1) 這需要大量的時間，幾乎一天。任何人都可以建議一個替代方案來快速完成這個過

2熱度

1回答

在DF上運行的視圖上的Spark sql查詢是什麼？

我在配置單元中創建了一個視圖，它是一個複雜的查詢（具有連接，聯合等）。當我在DF上執行查詢時，Catalyst & Tungsten工作還是100％配置？我想問的是 - 我可以得到查詢視圖正在執行，然後使用spark sql來執行查詢 - 與催化劑&鎢的改進？實施例： sqlContext.sql("select * from view") 視圖查詢上配置單元（蜂房上下文）運行，並且，以