1

我至強處理器的2個節點的集羣上安裝的Linpack。有時,如果我用這個命令啓動的Linpack:的Linpack有時起,有時沒有,但什麼都沒有改變

程序mpiexec -np 28 -print秩地圖-f /root/machines.HOSTS ./xhpl_intel64

LINPACK開始並打印輸出,有時我只看到打印的mpi映射,然後沒有任何跟蹤。對我來說,這似乎是隨機的行爲,因爲我不改變已經提到的電話和之間的任何東西,Linpack測試有時開始時,有時沒有。 在top我可以看到已經創建xhpl_intel64流程,他們大量使用的CPU,但看着節點之間的通信時,iftop告訴我,它沒有被髮送。

我使用MPICH2作爲MPI實現。這是我的HPL.dat:

# cat HPL.dat 
HPLinpack benchmark input file 
Innovative Computing Laboratory, University of Tennessee 
HPL.out  output file name (if any) 
6   device out (6=stdout,7=stderr,file) 
1   # of problems sizes (N) 
10000   Ns 
1   # of NBs 
250   NBs 
0   PMAP process mapping (0=Row-,1=Column-major) 
1   # of process grids (P x Q) 
2   Ps 
14   Qs 
16.0   threshold 
1   # of panel fact 
2   PFACTs (0=left, 1=Crout, 2=Right) 
1   # of recursive stopping criterium 
4   NBMINs (>= 1) 
1   # of panels in recursion 
2   NDIVs 
1   # of recursive panel fact. 
1   RFACTs (0=left, 1=Crout, 2=Right) 
1   # of broadcast 
1   BCASTs (0=1rg,1=1rM,2=2rg,3=2rM,4=Lng,5=LnM) 
1   # of lookahead depth 
1   DEPTHs (>=0) 
2   SWAP (0=bin-exch,1=long,2=mix) 
64   swapping threshold 
0   L1 in (0=transposed,1=no-transposed) form 
0   U in (0=transposed,1=no-transposed) form 
1   Equilibration (0=no,1=yes) 
8   memory alignment in double (> 0) 

EDIT2:

我現在只是讓一會兒程序運行和30分鐘後,它告訴我:

# mpiexec -np 32 -print-rank-map -f /root/machines.HOSTS ./xhpl_intel64 
(node-0:0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15) 
(node-1:16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31) 
Assertion failed in file ../../socksm.c at line 2577: (it_plfd->revents & 0x008) == 0 
internal ABORT - process 0 
APPLICATION TERMINATED WITH THE EXIT STRING: Hangup (signal 1) 

這是一個MPI的問題?

你知道這可能是什麼類型的問題?

回答

2

我想通了什麼問題了:MPICH2使用不同的隨機端口每次啓動時,如果這些被阻止您的應用程序不會正確啓動。 爲MPICH2的解決方案是設置環境變量MPICH_PORT_RANGE到START:END,像這樣:

出口MPICH_PORT_RANGE = 50000:51000

最佳, 海因裏希