<html>
<head>
<style>
.hmmessage P
{
margin:0px;
padding:0px
}
body.hmmessage
{
font-size: 10pt;
font-family:Verdana
}
</style>
</head>
<body class='hmmessage'>
Hello guys,<br>I am using MPICH2 under slurm, everything works fine if all the processes are on the same machine. <br>if different machines are involved I get this error.<br>any help???<br>Here are some details:<br>Platform: OpenSuse Linux on a cluster of 13 nodes (in average every node has 8 processors and 32Gb memory)<br>MPICH version: mpich2-1.1.1<br>MPICH2 Build:<br>./configure --prefix=/project/mt/user/mmediani/tools/mpich-slurm --with-pmi=slurm --with-slurm=/usr/local/slurm --with-pm=no&nbsp; --with-device=ch3:nemesis<br>$ srun -n2 cpi<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; srun: job 17919 queued and waiting for resources<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; srun: job 17919 has been allocated resources<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; Process 1 of 2 is on i13hpc2<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; Process 0 of 2 is on i13hpc2<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; pi is approximately 3.1415926544231318, Error is 0.0000000008333387<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; wall clock time = 0.000477<br>$ srun -n5 cpi<br>&nbsp;&nbsp;&nbsp;&nbsp; srun: job 17921 queued and waiting for resources<br>&nbsp;&nbsp;&nbsp;&nbsp; srun: job 17921 has been allocated resources<br>&nbsp;&nbsp;&nbsp;&nbsp; Process 1 of 5 is on i13hpc2<br>&nbsp;&nbsp;&nbsp;&nbsp; Process 0 of 5 is on i13hpc2<br>&nbsp;&nbsp;&nbsp;&nbsp; Fatal error in PMPI_Bcast: Other MPI error, error stack:<br>&nbsp;&nbsp;&nbsp;&nbsp; PMPI_Bcast(1301)......................: MPI_Bcast(buf=0x7fff892506e8, count=1, MPI_INT, root=0, MPI_COMM_WORLD) failed<br>&nbsp;&nbsp;&nbsp;&nbsp; MPIR_Bcast(998).......................:<br>&nbsp;&nbsp;&nbsp;&nbsp; MPIR_Bcast_scatter_ring_allgather(842):<br>&nbsp;&nbsp;&nbsp;&nbsp; MPIR_Bcast_binomial(187)..............:<br>&nbsp;&nbsp;&nbsp;&nbsp; MPIC_Send(41).........................:<br>&nbsp;&nbsp;&nbsp;&nbsp; MPIC_Wait(405)........................:<br>&nbsp;&nbsp;&nbsp;&nbsp; MPIDI_CH3I_Progress(150)..............:<br>&nbsp;&nbsp;&nbsp;&nbsp; MPID_nem_mpich2_blocking_recv(1074)...:<br>&nbsp;&nbsp;&nbsp;&nbsp; MPID_nem_tcp_connpoll(1663)...........: Communication error<br>&nbsp;&nbsp;&nbsp;&nbsp; Process 4 of 5 is on i13hpc3<br>&nbsp;&nbsp;&nbsp;&nbsp; Process 3 of 5 is on i13hpc3<br>&nbsp;&nbsp;&nbsp;&nbsp; Process 2 of 5 is on i13hpc3<br>&nbsp;&nbsp;&nbsp;&nbsp; srun: error: i13hpc2: task 0: Exited with exit code 1<br>Best,<br>Mohammed<br><br /><hr />With Windows Live, you can organize, edit, and  <a href='http://www.microsoft.com/middleeast/windows/windowslive/products/photo-gallery-edit.aspx' target='_new'>share your photos.</a></body>
</html>