<html><head></head><body style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; "><div style="font-size: 17px; ">Hello,</div><div style="font-size: 17px; "><br></div><div style="font-size: 17px; ">I confirm a failure when specifying -iface + a&nbsp;high number of tasks.</div><div style="font-size: 17px; ">I run hydra version 1.4.1p1 with a shared memory patch (seg_sz.patch)</div><div style="font-size: 17px; "><br></div><div style="font-size: 17px; "><div style="font-size: 15px; ">Test , "by hand" (= not thru batch system) , between the two following machines:</div><div style="font-size: 15px; "><span class="Apple-style-span" style="font-size: 17px; "><font class="Apple-style-span" size="4" style="font-size: 21px; "><span class="Apple-style-span" style="font-size: 15px; "><div style="font-size: 13px; "><i>&gt;more /tmp/machines&nbsp;</i></div><div style="font-size: 13px; "><i>ccwpge0061:128</i></div><div style="font-size: 13px; "><i>ccwpge0062:128</i></div></span></font></span></div></div><div style="font-size: 17px; "><br></div><div style="font-size: 15px; "><span class="Apple-style-span" style="font-size: 17px; "><font class="Apple-style-span" size="4" style="font-size: 21px; "><span class="Apple-style-span" style="font-size: 15px; "><div>1/ without specifying -iface, It's OK (more than 10 tries)</div><div><br></div></span></font></span></div><div style="font-size: 17px; "><div><div style="font-size: 13px; "><div>mpiexec -f /tmp/machines -n 150 bin/advance_test</div><div>bchambon@ccwpge0062's password:&nbsp;</div><div><br></div><div>I am there&nbsp;</div><div>Running MPI version 2, subversion 2&nbsp;</div><div>ref_message is ready&nbsp;</div><div>I am the master task 0 sur ccwpge0061, for 149 slaves tasks, we will exchange a buffer of 1 MB</div><div><br></div><div>slave number 1, iteration = 1</div><div>slave number 2, iteration = 1</div><div>slave number 3, iteration = 1</div><div>…</div><div><br></div></div></div></div><div style="font-size: 14px; ">&gt;echo $status</div><div style="font-size: 14px; ">0</div><div style="font-size: 17px; "><br></div><div style="font-size: 17px; ">2/ When&nbsp;<span class="Apple-style-span" style="font-size: 15px; ">specifying -iface eth0 &nbsp;</span><span class="Apple-style-span" style="font-size: 15px; ">I&nbsp;<u>always</u>&nbsp;get a assertion failure</span></div><div style="font-size: 17px; "><font class="Apple-style-span" size="4" style="font-size: 21px; "><span class="Apple-style-span" style="font-size: 15px; "><br></span></font></div><div style="font-size: 17px; "><div style="font-size: 12px; ">&gt;mpiexec -iface eth0 -f /tmp/machines -n 150 bin/advance_test &nbsp;<span class="Apple-style-span" style="font-size: 15px; ">(as previous, more than 10 tries)</span></div><div style="font-size: 12px; ">bchambon@ccwpge0062's password:&nbsp;</div><div style="font-size: 12px; "><br></div><div style="font-size: 12px; ">Segmentation fault</div><div style="font-size: 12px; ">[mpiexec@ccwpge0061] control_cb (./pm/pmiserv/pmiserv_cb.c:215): assert (!closed) failed</div><div style="font-size: 12px; ">[mpiexec@ccwpge0061] HYDT_dmxu_poll_wait_for_event (./tools/demux/demux_poll.c:77): callback returned error status</div><div style="font-size: 12px; ">[mpiexec@ccwpge0061] HYD_pmci_wait_for_completion (./pm/pmiserv/pmiserv_pmci.c:181): error waiting for event</div><div style="font-size: 12px; ">[mpiexec@ccwpge0061] main (./ui/mpich/mpiexec.c:405): process manager error waiting for completion</div></div><div style="font-size: 17px; "><br></div><div style="font-size: 17px; "><br></div><div style="font-size: 17px; ">I'm quite sure that the failure occurs when increasing the number of tasks</div><div style="font-size: 17px; ">with a machine file like :&nbsp;</div><div style="font-size: 17px; "><div>ccwpge0061:8</div><div>ccwpge0062:8</div></div><div style="font-size: 17px; "><br></div><div><font class="Apple-style-span" size="5"><span class="Apple-style-span" style="font-size: 17px; ">&nbsp;&gt;mpiexec -verbose -iface eth0 -f /tmp/machines -n 16 bin/advance_test</span></font></div><div><font class="Apple-style-span" size="5"><span class="Apple-style-span" style="font-size: 17px;"><br></span></font></div><div><font class="Apple-style-span" size="5"><span class="Apple-style-span" style="font-size: 17px;">seems to be ok !</span></font></div><div><font class="Apple-style-span" size="5"><span class="Apple-style-span" style="font-size: 17px;"><br></span></font></div><div><span class="Apple-style-span" style="font-size: 17px; ">Best regards.</span></div><div><font class="Apple-style-span" size="5"><span class="Apple-style-span" style="font-size: 17px;"><br></span></font></div><div><span class="Apple-style-span" style="font-size: 17px; ">PS :&nbsp;</span></div><div><span class="Apple-style-span" style="font-size: 17px; "><br></span></div><div><span class="Apple-style-span" style="font-size: 17px; "><div>&nbsp;&gt;limit</div><div>cputime &nbsp; &nbsp; &nbsp;unlimited</div><div>filesize &nbsp; &nbsp; unlimited</div><div>datasize &nbsp; &nbsp; unlimited</div><div>stacksize &nbsp; &nbsp;unlimited</div><div>coredumpsize unlimited</div><div>memoryuse &nbsp; &nbsp;unlimited</div><div>vmemoryuse &nbsp; unlimited</div><div>descriptors &nbsp;1000000&nbsp;</div><div>memorylocked unlimited</div><div>maxproc &nbsp; &nbsp; &nbsp;409600&nbsp;</div><div><br></div></span></div><div><span class="Apple-style-span" style="font-size: 17px; "><br></span></div><div><span class="Apple-style-span" style="font-size: 17px; ">---------------</span></div><div style="font-size: 17px; "><div><div><div><div><div>Bernard CHAMBON<br>IN2P3 / CNRS<br>04 72 69 42 18<br></div></div></div></div></div>
</div>
<br style="font-size: 17px; "></body></html>