Hi,<br>Thank you for your answer. I am currently using the 1.0.6 version. I currently cannot try with the 1.0.7 version. Is this a known bug from 1.0.6 which disappeared in 1.0.7 ?<br>Best regards,<br><br>Quentin<br><br><div class="gmail_quote">
On Fri, Apr 11, 2008 at 7:45 PM, Rajeev Thakur &lt;<a href="mailto:thakur@mcs.anl.gov">thakur@mcs.anl.gov</a>&gt; wrote:<br><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">




<div>
<div dir="ltr" align="left"><span><font color="#0000ff" face="Arial" size="2">Which version of MPICH2 are you using? Can you try with the 
latest version, 1.0.7?</font></span></div>
<div dir="ltr" align="left"><span><font color="#0000ff" face="Arial" size="2"></font></span>&nbsp;</div>
<div dir="ltr" align="left"><span><font color="#0000ff" face="Arial" size="2">Rajeev</font></span></div>
<div dir="ltr" align="left"><span><font color="#0000ff" face="Arial" size="2"></font></span>&nbsp;</div><br>
<blockquote dir="ltr" style="border-left: 2px solid rgb(0, 0, 255); padding-left: 5px; margin-left: 5px; margin-right: 0px;">
  <div dir="ltr" align="left" lang="en-us">
  <hr>
  <font face="Tahoma" size="2"><b>From:</b> <a href="mailto:owner-mpich-discuss@mcs.anl.gov" target="_blank">owner-mpich-discuss@mcs.anl.gov</a> 
  [mailto:<a href="mailto:owner-mpich-discuss@mcs.anl.gov" target="_blank">owner-mpich-discuss@mcs.anl.gov</a>] <b>On Behalf Of </b>Quentin 
  Bossard<br><b>Sent:</b> Friday, April 11, 2008 2:33 AM<br><b>To:</b> 
  <a href="mailto:mpich-discuss@mcs.anl.gov" target="_blank">mpich-discuss@mcs.anl.gov</a><br><b>Subject:</b> [mpich-discuss] Finalize 
  error<br></font><br></div><div><div></div><div class="Wj3C7c">
  <div></div>
  <h4 style="font-weight: normal; font-family: arial,sans-serif;">Hi 
  everyone,</h4><span style="font-family: arial,sans-serif;">I am trying to run a 
  program I wrote myself using mpi. The basic idea is to dispatch tasks in the 
  program on serveral cores/computers. It works fine (i.e. the results of the 
  tasks are correct and well collected). However I have an error after the 
  finalize (during...?). Anyway the &quot;Exiting program&quot; is after the instruction 
  finalize (and only done by the master).</span><br style="font-family: arial,sans-serif;"><span style="font-family: arial,sans-serif;">I have not been able to find what was 
  causing this error. The message is below. Note that the error is not 
  deterministic (i.e it does not happen all the time...). If someone has any 
  begining of idea I would be grateful to hear it.<br><br>Another question : is 
  there a friendly gpl (or at least free) mpi debugger ?<br><br>Thanks in 
  advance for your help<br><br>Quentin<br style="font-family: verdana,sans-serif;"></span><br style="font-family: arial,sans-serif;"><br>
  <h4 style="font-weight: normal; font-family: courier new,monospace;">0 : 
  Exiting program<br>Assertion failed in file ch3u_connect_sock.c at line 805: 
  vcch-&gt;conn == conn<br>[cli_5]: aborting job:<br>internal ABORT - process 
  5<br>[cli_4]: aborting job:<br>Fatal error in MPI_Finalize: Other MPI error, 
  error stack:<br>MPI_Finalize(255).........................: MPI_Finalize 
  failed<br>MPI_Finalize(154).........................:<br>MPID_Finalize(129)........................:<br>MPIDI_CH3U_VC_WaitForClose(339)...........: 
  an error occurred while the device was waiting for all open connections to 
  close<br>MPIDI_CH3i_Progress_wait(215).............: an error occurred while 
  handling an event returned by 
  MPIDU_Sock_Wait()<br>MPIDI_CH3I_Progress_handle_sock_event(420):<br>MPIDU_Socki_handle_read(633)..............: 
  connection failure (set=0,sock=4,errno=54:(strerror() not found))<br>Assertion 
  failed in file ch3u_connect_sock.c at line 805: vcch-&gt;conn == 
  conn<br>[cli_6]: aborting job:<br>internal ABORT - process 6<br>[cli_2]: 
  aborting job:<br>Fatal error in MPI_Finalize: Other MPI error, error 
  stack:<br>MPI_Finalize(255).........................: MPI_Finalize 
  failed<br>MPI_Finalize(154).........................:<br>MPID_Finalize(129)........................:<br>MPIDI_CH3U_VC_WaitForClose(339)...........: 
  an error occurred while the device was waiting for all open connections to 
  close<br>MPIDI_CH3i_Progress_wait(215).............: an error occurred while 
  handling an event returned by 
  MPIDU_Sock_Wait()<br>MPIDI_CH3I_Progress_handle_sock_event(420):<br>MPIDU_Socki_handle_read(633)..............: 
  connection failure (set=0,sock=4,errno=54:(strerror() not found))<br>[cli_3]: 
  aborting job:<br>Fatal error in MPI_Finalize: Other MPI error, error 
  stack:<br>MPI_Finalize(255).........................: MPI_Finalize 
  failed<br>MPI_Finalize(154).........................:<br>MPID_Finalize(129)........................:<br>MPIDI_CH3U_VC_WaitForClose(339)...........: 
  an error occurred while the device was waiting for all open connections to 
  close<br>MPIDI_CH3i_Progress_wait(215).............: an error occurred while 
  handling an event returned by 
  MPIDU_Sock_Wait()<br>MPIDI_CH3I_Progress_handle_sock_event(420):<br>MPIDU_Socki_handle_read(633)..............: 
  connection failure (set=0,sock=2,errno=54:(strerror() not found))<br>rank 5 in 
  job 1741&nbsp; hercules.arbitragis_64602&nbsp;&nbsp; caused collective abort 
  of all ranks<br>&nbsp; exit status of rank 5: killed by signal 9<br>rank 4 in 
  job 1741&nbsp; hercules.arbitragis_64602&nbsp;&nbsp; caused collective abort 
  of all ranks<br>&nbsp; exit status of rank 4: killed by signal 9<br>rank 3 in 
  job 1741&nbsp; hercules.arbitragis_64602&nbsp;&nbsp; caused collective abort 
  of all ranks<br>&nbsp; exit status of rank 3: killed by signal 9<br>rank 2 in 
  job 1741&nbsp; hercules.arbitragis_64602&nbsp;&nbsp; caused collective abort 
  of all ranks<br>&nbsp; exit status of rank 2: killed by signal 9<br>Exit 
  137<br><br></h4></div></div></blockquote></div>
</blockquote></div><br>