Spark不分配工作

我設置了兩個虛擬機在分佈式設置中測試Spark。看來我的作業只能在一個節點上本地運行，這是我用來提交作業的一個節點。Spark不分配工作

一個節點作爲datanode/worker節點運行，第二個節點另外還有namenode/secondary-namenode 我配置了底層hadoop以使用Yarn。 jps命令確認各種服務在我預計在hadoop/spark中啓動* -script後正確啓動並基本可用。

我使用htop來「跟蹤」如果使用其他節點，但CPU使用率在2％-3％之間跳轉 - >可能不使用。我想知道我在這裏錯過了什麼。

我開始我的工作，用這個命令： ./spark-submit --class COM .... DistributedTest --master紗客戶myJar.jar

這是我執行類（數據.txt文件是關於1GB純文本）

public class DistributedTest 
    { 
     public static void main(String[] args) 
      throws IOException 
     { 

      SparkConf conf = new SparkConf().setAppName("Simple Application"); 
      JavaSparkContext sc = new JavaSparkContext(conf); 
      JavaRDD<String> logData = sc.textFile("hdfs://woodpecker:10001/husr/data.txt");// .persist(StorageLevel.DISK_ONLY()); 

      long numAs = logData.filter(new Function<String, Boolean>() 
      { 
       public Boolean call(String s) 
       { 
        return s.contains("a"); 
       } 
      }).count(); 

      long numBs = logData.filter(new Function<String, Boolean>() 
      { 
       public Boolean call(String s) 
       { 
        return s.contains("b"); 
       } 
      }).count(); 

      sc.close(); 

      String s = "Lines with a: " + numAs + ", lines with b: " + numBs; 
      System.out.println(s); 


     } 
    }

任何人任何想法，爲什麼我的設置不分發

來源

2015-04-07 toobee

你確定你的機器都在同一個火花簇上？ – eliasah

我該如何確認？我假設兩個節點都知道對方，因爲啓動start-all腳本也會啓動節點及其所有服務？他們怎麼可能不在同一個集羣？ – toobee

你看到兩個工人在同一個貴？ – eliasah

的filter操作肯定是分佈式的，count部分計算一個工人，而總的C ount計算回主。伯爵的結果也在主人身上。

過濾一個GB的數據並不是真的會給Spark帶來任何壓力，所以你應該只能看到一個CPU上短暫的CPU峯值。請看看I/O使用情況。

你的應用程序很好，你的設置肯定有問題。

來源

2015-04-07 10:59:35

'count（）'是在master上完成的？怎麼樣？ – maasg

當然，當然只有一部分RDD的長度是分佈式的，但它會將主節點上的所有子長度相加。 –

你有什麼建議如何在節點上使用更多的CPU時間？我的主人是100％，而第二個節點是徘徊。我仍然懷疑這是對的。我希望在我的節點上至少看到更多的cpu使用情況。 – toobee

首先，您需要檢查Spark UI並確保您有多個工作人員，這也取決於您在Rdd中擁有多少分區。

來源

2015-04-09 14:46:27 Kaushal

Spark不分配工作

回答

相關問題