<html><head></head><body style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; "><div style="font-size: 16px; ">Hello</div><div style="font-size: 16px; "><br></div><div style="font-size: 16px; ">Using&nbsp;mpich2-1.4.1p1 since a few day, I appreciate integration with Grid Engine</div><div style="font-size: 16px; ">I have run many jobs, but from time to time (1 ovr 10 times) I got some failures</div><div style="font-size: 16px; "><br></div><div style="font-size: 16px; ">My basic test code is an infinite loop with a master task sending a message (10 MB) to slave tasks</div><div style="font-size: 16px; "><br></div><div style="font-size: 16px; ">10 MB is an arbitrary value, what is the message size limit with&nbsp;MPI_Send(message, …) &nbsp;?</div><div style="font-size: 16px; "><br></div><div style="font-size: 16px; ">I encountered to kind of error :</div><div style="font-size: 16px; "><br></div><div style="font-size: 16px; "><span class="Apple-style-span" style="font-size: 12px; ">[mpiexec@ccwpge0034] control_cb (./pm/pmiserv/pmiserv_cb.c:215): assert (!closed) failed</span></div><div style="font-size: 12px; ">[mpiexec@ccwpge0034] HYDT_dmxu_poll_wait_for_event (./tools/demux/demux_poll.c:77): callback returned error status</div><div style="font-size: 12px; ">[mpiexec@ccwpge0034] HYD_pmci_wait_for_completion (./pm/pmiserv/pmiserv_pmci.c:181): error waiting for event</div><div style="font-size: 12px; ">[mpiexec@ccwpge0034] main (./ui/mpich/mpiexec.c:405): process manager error waiting for completion</div><div style="font-size: 12px; "><br></div><div style="font-size: 12px; ">OR</div><div style="font-size: 12px; "><br></div><div style="font-size: 12px; "><div>Fatal error in MPI_Send: Other MPI error, error stack:</div><span></span><div>MPI_Send(173)..........................: MPI_Send(buf=0x2b1283a75010, count=5242880, MPI_CHAR, dest=36, tag=0, MPI_COMM_WORLD) failed</div><div>MPID_nem_lmt_RndvSend(81)..............:&nbsp;</div><div>MPIDI_CH3_RndvSend(63).................: failure occurred while attempting to send RTS packet</div><div>MPID_nem_tcp_iStartContigMsg(298)......:&nbsp;</div><div>MPID_nem_tcp_connect(839)..............:&nbsp;</div><div>MPID_nem_tcp_get_addr_port_from_bc(515): Missing port or invalid host/port description in business card</div><div><br></div></div><div style="font-size: 17px; "><br></div><div style="font-size: 17px; ">I have no idea to investigate those failures ?</div><div style="font-size: 17px; "><span class="Apple-tab-span" style="white-space:pre">        </span></div><div style="font-size: 17px; ">Best regards</div><div><br class="webkit-block-placeholder"></div><div style="font-size: 17px; ">
<div><div><div><div><div>---------------<br>Bernard CHAMBON<br>IN2P3 / CNRS<br>04 72 69 42 18<br></div></div></div></div></div>
</div>
<br style="font-size: 17px; "></body></html>