<div dir="ltr">Ok.<br><br>&nbsp;I&#39;ll look into the code for MPI_Abort.<br><br>Thank you,<br>Sangamesh<br><br><div class="gmail_quote">On Thu, Sep 4, 2008 at 12:42 PM, Pavan Balaji <span dir="ltr">&lt;<a href="mailto:balaji@mcs.anl.gov">balaji@mcs.anl.gov</a>&gt;</span> wrote:<br>
<blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">Sangamesh,<br>
<br>
It is the application that is calling MPI_Abort, not the MPI library. The MPI library does not know why the application called an abort, so it can&#39;t really give you any more information. You&#39;ll need to check the application code to see why it&#39;s calling abort.<br>

<br>
&nbsp;-- Pavan<div class="Ih2E3d"><br>
<br>
On 09/04/2008 02:08 AM, Sangamesh B wrote:<br>
</div><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;"><div class="Ih2E3d">
Hi,<br>
<br>
 &nbsp; &nbsp; There is no much info available regarding the error. &nbsp;I got this code for benchmarking. So the client has mentioned to run it for 48, 96, 128, 192 and 256 processes.<br>
<br>
For each run its giving the same error. May I know is there an option for verbose in mpirun to get more info?<br>
<br>
Thank you,<br>
Sangamesh<br>
<br></div><div class="Ih2E3d">
On Thu, Sep 4, 2008 at 11:48 AM, Pavan Balaji &lt;<a href="mailto:balaji@mcs.anl.gov" target="_blank">balaji@mcs.anl.gov</a> &lt;mailto:<a href="mailto:balaji@mcs.anl.gov" target="_blank">balaji@mcs.anl.gov</a>&gt;&gt; wrote:<br>

<br>
<br>
 &nbsp; &nbsp;I don&#39;t quite understand what the problem here is. It looks like the<br>
 &nbsp; &nbsp;application is calling MPI_Abort(). MPICH2 kills the processes<br>
 &nbsp; &nbsp;belonging to the application, when MPI_Abort() is called. Do you<br>
 &nbsp; &nbsp;expect a different behavior?<br>
<br>
 &nbsp; &nbsp; -- Pavan<br>
<br>
<br>
 &nbsp; &nbsp;On 09/03/2008 11:51 PM, Sangamesh B wrote:<br>
<br>
 &nbsp; &nbsp; &nbsp; &nbsp;Hi All,<br>
<br>
 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;I&#39;ve compiled a home developed C application, with<br>
 &nbsp; &nbsp; &nbsp; &nbsp;MPICH2-1.0.7, GNU compilers on Cent OS 5 based &nbsp;Rocks 5 cluster.<br>
<br>
 &nbsp; &nbsp; &nbsp; &nbsp;Command used and error are as follows:<br>
<br>
 &nbsp; &nbsp; &nbsp; &nbsp;$ /opt/mpich2/gnu/bin/mpirun -machinefile ./mach28 -np 8 ./run3<br></div>
 &nbsp; &nbsp; &nbsp; &nbsp;./<a href="http://run3.in" target="_blank">run3.in</a> &lt;<a href="http://run3.in" target="_blank">http://run3.in</a>&gt; &lt;<a href="http://run3.in" target="_blank">http://run3.in</a>&gt; | tee run3_1a_8p<div class="Ih2E3d">
<br>
<br>
<br>
 &nbsp; &nbsp; &nbsp; &nbsp;[cli_0]: aborting job:<br>
 &nbsp; &nbsp; &nbsp; &nbsp;application called MPI_Abort(MPI_COMM_WORLD, 1) - process 0<br>
 &nbsp; &nbsp; &nbsp; &nbsp;rank 0 in job 1 &nbsp;locuzcluster.org_44326 &nbsp; caused collective<br>
 &nbsp; &nbsp; &nbsp; &nbsp;abort of all ranks<br>
 &nbsp; &nbsp; &nbsp; &nbsp; exit status of rank 0: killed by signal 9<br>
<br>
 &nbsp; &nbsp; &nbsp; &nbsp;$ ldd run3<br>
 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; libm.so.6 =&gt; /lib64/libm.so.6 (0x0000003a1fa00000)<br>
 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; libmpich.so.1.1 =&gt; /opt/mpich2/gnu/lib/libmpich.so.1.1<br>
 &nbsp; &nbsp; &nbsp; &nbsp;(0x00002aaaaaac4000)<br>
 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; libpthread.so.0 =&gt; /lib64/libpthread.so.0<br>
 &nbsp; &nbsp; &nbsp; &nbsp;(0x0000003a20200000)<br>
 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; librt.so.1 =&gt; /lib64/librt.so.1 (0x0000003a20e00000)<br>
 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; libuuid.so.1 =&gt; /lib64/libuuid.so.1 (0x00002aaaaadba000)<br>
 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; libc.so.6 =&gt; /lib64/libc.so.6 (0x0000003a1f600000)<br>
 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; /lib64/ld-linux-x86-64.so.2 (0x0000003a1f200000)<br>
<br>
 &nbsp; &nbsp; &nbsp; &nbsp;It is recommended to run this job for 48 and 96 process/cores.<br>
 &nbsp; &nbsp; &nbsp; &nbsp;But cluster has only 8 cores.<br>
 &nbsp; &nbsp; &nbsp; &nbsp;Is this lower no of processes causing the above error?<br>
<br>
 &nbsp; &nbsp; &nbsp; &nbsp;Thank you,<br>
 &nbsp; &nbsp; &nbsp; &nbsp;Sangamesh<br>
<br>
<br>
 &nbsp; &nbsp;--  &nbsp; &nbsp;Pavan Balaji<br></div>
 &nbsp; &nbsp;<a href="http://www.mcs.anl.gov/%7Ebalaji" target="_blank">http://www.mcs.anl.gov/~balaji</a> &lt;<a href="http://www.mcs.anl.gov/%7Ebalaji" target="_blank">http://www.mcs.anl.gov/%7Ebalaji</a>&gt;<br>
<br>
<br>
</blockquote><div><div></div><div class="Wj3C7c">
<br>
-- <br>
Pavan Balaji<br>
<a href="http://www.mcs.anl.gov/%7Ebalaji" target="_blank">http://www.mcs.anl.gov/~balaji</a><br>
<br>
</div></div></blockquote></div><br></div>