<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 3.2//EN">
<HTML>
<HEAD>
<META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=us-ascii">
<META NAME="Generator" CONTENT="MS Exchange Server version 6.5.7036.0">
<TITLE>RE: [mpich-discuss] MPI error, error stack</TITLE>
</HEAD>
<BODY>
<!-- Converted from text/plain format -->

<P><FONT SIZE=2>Hi,<BR>
&nbsp;Can you send us a test program that fails ?<BR>
&nbsp;You might also want to look more into the error message,<BR>
<BR>
===================<BR>
rank 18 in job 1 in04033.pcf.sinica.edu.tw_53415 caused collective abort of all ranks exit status of rank 18: killed by signal 8 rank 15 in job 1 in04033.pcf.sinica.edu.tw_53415 caused collective abort of all ranks exit status of rank 15: return code 1<BR>
===================<BR>
<BR>
&nbsp;and see what the signal 8 refers to in your system (possibly a floating point exception).<BR>
<BR>
Regards,<BR>
Jayesh<BR>
-----Original Message-----<BR>
From: owner-mpich-discuss@mcs.anl.gov [<A HREF="mailto:owner-mpich-discuss@mcs.anl.gov">mailto:owner-mpich-discuss@mcs.anl.gov</A>] On Behalf Of wzlu<BR>
Sent: Wednesday, July 02, 2008 3:58 AM<BR>
To: mpich-discuss@mcs.anl.gov<BR>
Subject: [mpich-discuss] MPI error, error stack<BR>
<BR>
Hi, all<BR>
<BR>
I used mpich 2 to run my job. And I got following error message.<BR>
I have test cpi without any error message.<BR>
The error cause by network? or other? Thanks a lot.<BR>
<BR>
Best Regards,<BR>
Lu<BR>
<BR>
[cli_15]: aborting job:<BR>
Fatal error in MPI_Waitall: Other MPI error, error stack:<BR>
MPI_Waitall(242)..........................: MPI_Waitall(count=10, req_array=0x11e9a90, status_array=0x11e9990) failed<BR>
MPIDI_CH3_Progress_wait(212)..............: an error occurred while handling an event returned by MPIDU_Sock_Wait()<BR>
MPIDI_CH3I_Progress_handle_sock_event(413):<BR>
MPIDU_Socki_handle_read(633)..............: connection failure (set=0,sock=14,errno=104:Connection reset by peer)<BR>
<BR>
cpu real user sys ratio node<BR>
0* 0.40 0.01 0.01 6% in04035.pcf.sinica.edu.tw total 0.40 0.01 0.01 0.06x<BR>
<BR>
memory local global res size pag flts pag flts voluntary involunt heap heap (pages) minor major switches switches<BR>
0* 3MB 1KB 0 2135 18 854 5<BR>
total 3MB 1KB 0 2135 18 854 5<BR>
<BR>
messages send send send recv recv recv copy copy copy cnt total avg cnt total avg cnt total avg<BR>
0* 0 0 B 0 B 0 0 B 0 B 0 0 B 0 B<BR>
total 0 0 B 0 B 0 0 B 0 B 0 0 B 0 B<BR>
rank 18 in job 1 in04033.pcf.sinica.edu.tw_53415 caused collective abort of all ranks exit status of rank 18: killed by signal 8 rank 15 in job 1 in04033.pcf.sinica.edu.tw_53415 caused collective abort of all ranks exit status of rank 15: return code 1<BR>
[cli_13]: aborting job:<BR>
Fatal error in MPI_Waitall: Other MPI error, error stack:<BR>
MPI_Waitall(242)..........................: MPI_Waitall(count=6, req_array=0x11e9a40, status_array=0x11e9990) failed<BR>
MPIDI_CH3_Progress_wait(212)..............: an error occurred while handling an event returned by MPIDU_Sock_Wait()<BR>
MPIDI_CH3I_Progress_handle_sock_event(413):<BR>
MPIDU_Socki_handle_read(633)..............: connection failure (set=0,sock=7,errno=104:Connection reset by peer)<BR>
<BR>
cpu real user sys ratio node<BR>
0* 0.40 0.01 0.03 9% in04037.pcf.sinica.edu.tw total 0.40 0.01 0.03 0.09x<BR>
<BR>
memory local global res size pag flts pag flts voluntary involunt heap heap (pages) minor major switches switches<BR>
0* 3MB 1KB 0 2021 19 846 6<BR>
total 3MB 1KB 0 2021 19 846 6<BR>
<BR>
messages send send send recv recv recv copy copy copy cnt total avg cnt total avg cnt total avg<BR>
0* 0 0 B 0 B 0 0 B 0 B 0 0 B 0 B<BR>
total 0 0 B 0 B 0 0 B 0 B 0 0 B 0 B<BR>
<BR>
</FONT>
</P>

</BODY>
</HTML>