<html><head></head><body style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; ">Hello<div><br><div><div>Le 27 déc. 2011 à 06:52, Pavan Balaji a écrit :</div><br class="Apple-interchange-newline"><blockquote type="cite"><span class="Apple-style-span" style="border-collapse: separate; font-family: Courier; font-style: normal; font-variant: normal; font-weight: normal; letter-spacing: normal; line-height: normal; orphans: 2; text-indent: 0px; text-transform: none; white-space: normal; widows: 2; word-spacing: 0px; -webkit-border-horizontal-spacing: 0px; -webkit-border-vertical-spacing: 0px; -webkit-text-decorations-in-effect: none; -webkit-text-size-adjust: auto; -webkit-text-stroke-width: 0px; "><br>Looks like the shared memory is bombing out. &nbsp;Can you run mpiexec with the -verbose option and also send us the machine file that you are using (or is it all on a single node)?<br><br>-- Pavan<br></span></blockquote></div><div><br></div><div>Another test &nbsp;(to still point the same failure)</div><div>&nbsp;1/ after getting rid of limits on Linux machine (SL5, Linux 2.6.x)</div><div><div style="font-size: 13px; "><i>&nbsp;&gt;limit</i></div><div style="font-size: 13px; "><i>cputime &nbsp; &nbsp; &nbsp;unlimited</i></div><div style="font-size: 13px; "><i>filesize &nbsp; &nbsp; unlimited</i></div><div style="font-size: 13px; "><i>datasize &nbsp; &nbsp; unlimited</i></div><div style="font-size: 13px; "><i>stacksize &nbsp; &nbsp;unlimited</i></div><div style="font-size: 13px; "><i>coredumpsize unlimited</i></div><div style="font-size: 13px; "><i>memoryuse &nbsp; &nbsp;unlimited</i></div><div style="font-size: 13px; "><i>vmemoryuse &nbsp; unlimited</i></div><div style="font-size: 13px; "><i>descriptors &nbsp;1000000&nbsp;</i></div><div style="font-size: 13px; "><i>memorylocked unlimited</i></div><div style="font-size: 13px; "><i>maxproc &nbsp; &nbsp; &nbsp;409600&nbsp;</i></div><div style="font-size: 13px; "><i><br></i></div><div style="font-size: 13px; "><div><i>&gt;more /proc/sys/kernel/shmall</i></div><div><i>8388608000</i></div></div><div style="font-size: 13px; "><i><br></i></div><div style="font-size: 17px; ">&nbsp;2/ after increasing&nbsp;<span class="Apple-style-span" style="font-size: 14px; "><i>FD_SETSIZE&nbsp;</i></span>and recompiling mpich2&nbsp;1.4.1p1</div><div style="font-size: 13px; "><i><br></i></div><div style="font-size: 16px; "><div style="font-size: 13px; "><i>&gt;grep -E "#define\W+__FD_SETSIZE" /usr/include/*.h /usr/include/*/*.h</i></div><div style="font-size: 13px; "><i>/usr/include/bits/typesizes.h:#define</i><span class="Apple-tab-span" style="white-space: pre; "><i>        </i></span><i>__FD_SETSIZE &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;8192</i><span class="Apple-tab-span" style="white-space: pre; "><i>        </i></span></div><div><i style="font-size: 13px; ">/usr/include/linux/posix_types.h:#define __FD_SETSIZE</i><span class="Apple-tab-span" style="white-space: pre; font-size: 13px; "><i>        </i></span><i style="font-size: 13px; ">&nbsp;8192</i><span class="Apple-tab-span" style="white-space: pre; ">        </span></div><div><span class="Apple-style-span" style="white-space: pre;"><br></span></div><div><span class="Apple-tab-span" style="white-space: pre; "><div style="white-space: normal; "><div><div><span class="Apple-style-span" style="font-size: 18px; "><font class="Apple-style-span" size="4"><span class="Apple-style-span" style="font-size: 16px; "><div><div style="font-size: 13px; "><span class="Apple-style-span" style="font-size: 16px; ">I still get the same problem, when trying to run a basic code with more than ~150 tasks (trying with 170 tasks)</span></div></div><div><div><br></div><div><div style="font-size: 13px; "><i>&gt;mpich2version</i></div><div style="font-size: 13px; "><i>MPICH2 Version: &nbsp; &nbsp;</i><span class="Apple-tab-span" style="white-space: pre; "><i>        </i></span><i>1.4.1p1</i></div><div style="font-size: 13px; "><i>MPICH2 Release date:</i><span class="Apple-tab-span" style="white-space: pre; "><i>        </i></span><i>Thu Sep &nbsp;1 13:53:02 CDT 2011</i></div><div style="font-size: 13px; "><i>MPICH2 Device: &nbsp; &nbsp;</i><span class="Apple-tab-span" style="white-space: pre; "><i>        </i></span><i>ch3:nemesis</i></div><div style="font-size: 13px; "><i>MPICH2 configure:&nbsp;</i><span class="Apple-tab-span" style="white-space: pre; "><i>        </i></span><i>--prefix=//scratch/BC/mpich2-1.4</i></div><div style="font-size: 13px; "><i>MPICH2 CC:&nbsp;</i><span class="Apple-tab-span" style="white-space: pre; "><i>        </i></span><i>/usr/bin/gcc -m64 &nbsp; -O2</i></div><div style="font-size: 13px; "><i>MPICH2 CXX:&nbsp;</i><span class="Apple-tab-span" style="white-space: pre; "><i>        </i></span><i>c++ -m64 &nbsp;-O2</i></div><div style="font-size: 13px; "><i>MPICH2 F77:&nbsp;</i><span class="Apple-tab-span" style="white-space: pre; "><i>        </i></span><i>/usr/bin/f77 &nbsp; -O2</i></div><div style="font-size: 13px; "><i>MPICH2 FC:&nbsp;</i><span class="Apple-tab-span" style="white-space: pre; "><i>        </i></span><i>f95 &nbsp;</i></div></div></div><div style="font-size: 13px; "><i><br></i></div><div><div><div><i>&gt;mpiexec -np 170 bin/advance_test</i></div><div><i>Assertion failed in file /scratch/BC/mpich2-1.4.1p1/src/util/wrappers/mpiu_shm_wrappers.h at line 889: seg_sz &gt; 0</i></div><div><i>internal ABORT - process 0</i></div></div><div><br></div></div><div><br></div></span></font></span></div></div></div></span></div></div></div><div>Another interesting thing is that the same basic code, running with older release of mpich2 (<span class="Apple-style-span" style="font-size: 16px; ">1.0.8p1, using mpd daemon, default installation on our machines)&nbsp;</span>run without any failure&nbsp;</div><div><span class="Apple-style-span" style="border-collapse: separate; color: rgb(0, 0, 0); font-family: Courier; font-style: normal; font-variant: normal; font-weight: normal; letter-spacing: normal; line-height: normal; orphans: 2; text-indent: 0px; text-transform: none; white-space: normal; widows: 2; word-spacing: 0px; -webkit-border-horizontal-spacing: 0px; -webkit-border-vertical-spacing: 0px; -webkit-text-decorations-in-effect: none; -webkit-text-size-adjust: auto; -webkit-text-stroke-width: 0px; "><div><div><div><div><div><br></div><div style="font-size: 13px; "><i>&gt;mpich2version&nbsp;</i></div><div style="font-size: 13px; "><i>MPICH2 Version: &nbsp; &nbsp;</i><span class="Apple-tab-span" style="white-space: pre; "><i>        </i></span><i>1.0.8p1</i></div><div style="font-size: 13px; "><i>MPICH2 Release date:</i><span class="Apple-tab-span" style="white-space: pre; "><i>        </i></span><i>Unknown, built on Tue Apr 21 13:52:10 CEST 2009</i></div><div style="font-size: 13px; "><i>MPICH2 Device: &nbsp; &nbsp;</i><span class="Apple-tab-span" style="white-space: pre; "><i>        </i></span><i>ch3:sock</i></div><div style="font-size: 13px; "><i>MPICH2 configure:&nbsp;</i><span class="Apple-tab-span" style="white-space: pre; "><i>        </i></span><i>-prefix=/usr/local/mpich2</i></div><div style="font-size: 13px; "><i>MPICH2 CC:&nbsp;</i><span class="Apple-tab-span" style="white-space: pre; "><i>        </i></span><i>gcc &nbsp;-O2</i></div><div style="font-size: 13px; "><i>MPICH2 CXX:&nbsp;</i><span class="Apple-tab-span" style="white-space: pre; "><i>        </i></span><i>c++ &nbsp;-O2</i></div><div style="font-size: 13px; "><i>MPICH2 F77:&nbsp;</i><span class="Apple-tab-span" style="white-space: pre; "><i>        </i></span><i>g77 &nbsp;-O2</i></div><div style="font-size: 15px; "><span class="Apple-style-span" style="font-size: 13px; "><i>MPICH2 F90:&nbsp;</i></span><span class="Apple-style-span" style="font-size: 13px; "><span class="Apple-tab-span" style="white-space: pre; "><i>        </i></span></span><span class="Apple-style-span" style="font-size: 13px; "><i>f95 &nbsp;-O2</i></span></div><div><font class="Apple-style-span" size="4"><span class="Apple-style-span" style="font-size: 16px; "><span class="Apple-style-span" style="font-size: 18px; "><br></span></span></font></div><div><div style="font-size: 16px; "><div><div><div><div style="font-size: 15px; "><i>&gt;mpicc -O2 -o bin/advance_test advance_test.c</i></div></div></div><div style="font-size: 15px; "></div><div style="font-size: 15px; "><i>&gt;mpdboot --ncpus=170</i></div><div style="font-size: 15px; "><i>&gt;mpiexec -np 170 bin/advance_test | more</i></div></div></div><div style="font-size: 16px; "><div style="font-size: 15px; "><i>Running 170 tasks&nbsp;</i></div><div style="font-size: 15px; "><i>In slave tasks&nbsp;</i></div><div style="font-size: 15px; "><i>In slave tasks&nbsp;</i></div><div style="font-size: 15px; "><i>In slave tasks&nbsp;</i></div><div style="font-size: 15px; "><i>In slave tasks&nbsp;</i></div><div style="font-size: 15px; "><i>In slave tasks&nbsp;</i></div><div style="font-size: 15px; "><i>In slave tasks&nbsp;</i></div><div style="font-size: 15px; "><i>…</i></div><div style="font-size: 15px; "><i>mpdallexit</i></div></div></div><div><br></div><div>The test code run without failure&nbsp;</div><div><br></div><div><div>If you ask me why such a test, it's because, after installing mpich2 1.4.1.p1</div><div>and running jobs thru GridEngine, everything works fine if jobs specify small number of tasks</div><div><span class="hps">then</span> <span class="hps">I get</span> <span class="hps">failures</span> <span class="hps">as</span> <span class="hps">the number of</span> <span class="hps">tasks</span> <span class="hps">increases</span></div><div><span class="hps"></span>(let's say with for example 32 tasks 100% jobs pass, with 64 tasks, 70% of jobs fails)</div><div><br></div><div>So at the current time, I can't provide Mpich2 for ours user</div><div><br></div><div><div>Thank you for any help</div></div><div><br></div><div>&nbsp;</div></div><div><br></div><div>PS : the basic test code</div><div>&nbsp;</div><div><div style="font-size: 13px; ">&nbsp;if (MPI_Init(&amp;argc, &amp;argv) != MPI_SUCCESS ) {</div><div style="font-size: 13px; ">&nbsp;&nbsp;printf("Error calling MPI_Init !!, exiting \n") ; fflush(stdout);</div><div style="font-size: 13px; ">&nbsp;&nbsp;return(1);</div><div style="font-size: 13px; ">&nbsp;}</div><div style="font-size: 13px; "><br></div><div style="font-size: 13px; ">&nbsp;int rank;</div><div style="font-size: 13px; ">&nbsp;if ( MPI_Comm_rank(MPI_COMM_WORLD, &amp;rank)!= MPI_SUCCESS ) {</div><div style="font-size: 13px; ">&nbsp;&nbsp;printf("Error calling &nbsp;MPI_Comm_rank !!, exiting \n") ; fflush(stdout);</div><div style="font-size: 13px; ">&nbsp;&nbsp;MPI_Abort(MPI_COMM_WORLD, 1);</div><div style="font-size: 13px; ">&nbsp;&nbsp;return(1);</div><div style="font-size: 13px; ">&nbsp;}</div><div style="font-size: 13px; ">&nbsp;</div><div style="font-size: 13px; ">&nbsp;if (rank == 0) {</div><div style="font-size: 13px; ">&nbsp;&nbsp;int nprocs;</div><div style="font-size: 13px; ">&nbsp;&nbsp;if (MPI_Comm_size(MPI_COMM_WORLD, &amp;nprocs)!= MPI_SUCCESS ) {</div><div style="font-size: 13px; ">&nbsp;&nbsp; printf("Error calling &nbsp;MPI_Comm_size !!, exiting \n") ; fflush(stdout);</div><div style="font-size: 13px; ">&nbsp;&nbsp; MPI_Abort(MPI_COMM_WORLD, 1);</div><div style="font-size: 13px; ">&nbsp;&nbsp; return(1);</div><div style="font-size: 13px; ">&nbsp;&nbsp;}</div><div style="font-size: 13px; ">&nbsp;</div><div style="font-size: 13px; ">&nbsp;&nbsp;printf("Running %d tasks \n", nprocs) ; fflush(stdout);</div><div style="font-size: 13px; ">&nbsp;&nbsp;MPI_Finalize();&nbsp;</div><div style="font-size: 13px; ">&nbsp;&nbsp;return(0);&nbsp;</div><div style="font-size: 13px; ">&nbsp;} else {</div><div style="font-size: 13px; ">&nbsp;&nbsp;printf("In slave tasks \n") ; fflush(stdout);</div><div style="font-size: 13px; ">&nbsp;&nbsp; sleep(1);</div><div style="font-size: 13px; ">&nbsp;&nbsp;// MPI_Finalize(); &nbsp;// mandatory if &lt;= mpich2-1.2 ?</div><div style="font-size: 13px; ">&nbsp;&nbsp;return(0);</div><div style="font-size: 13px; ">&nbsp;}</div></div><div><br></div><div>---------------<br>Bernard CHAMBON<br>IN2P3 / CNRS<br>04 72 69 42 18<br></div></div></div></div></div></span>
</div>
<br></div></body></html>