<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 3.2//EN">
<HTML>
<HEAD>
<META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=us-ascii">
<META NAME="Generator" CONTENT="MS Exchange Server version 6.5.7036.0">
<TITLE>RE: [mpich-discuss]network failure during the execution of parallel program</TITLE>
</HEAD>
<BODY>
<!-- Converted from text/plain format -->

<P><FONT SIZE=2>&nbsp;Hi,<BR>
&nbsp; Specifying &quot;shm&quot; as the channel ensures that all MPI communication (btw the MPI processes) is done using shared memory. The error messages that you see could be from the process launcher or the process manager.<BR>
&nbsp; Do you really need to use the &quot;-localonly&quot; option (Specifying the option you might end up seeing some error messages which are handled within the library and does not effect the MPI job)? You can run your job as &quot;mpiexec -channel shm -n 4 myapp.exe&quot;. Let us know if you still see the error messages (If yes, please copy-paste the error mesgs in your email)<BR>
<BR>
Regards,<BR>
Jayesh<BR>
<BR>
-----Original Message-----<BR>
From: owner-mpich-discuss@mcs.anl.gov [<A HREF="mailto:owner-mpich-discuss@mcs.anl.gov">mailto:owner-mpich-discuss@mcs.anl.gov</A>] On Behalf Of Seifer Lin<BR>
Sent: Wednesday, May 28, 2008 2:32 AM<BR>
To: mpich-discuss@mcs.anl.gov<BR>
Subject: [mpich-discuss]network failure during the execution of parallel program<BR>
<BR>
Hi all:<BR>
<BR>
I test a parallel program in a single machine with 4 processes.<BR>
The program only outputs ncpu and cpuid every 5 seconds<BR>
I use&nbsp;&nbsp; mpiexec -localonly 4 myapp.exe<BR>
During the execution, I unplug the network line, and the program shows some error messages like generic socket failure.<BR>
<BR>
If I use mpiexec -channel shm -n 4 myapp.exe, and also unplug the network line, the same error messages are showed again.<BR>
After the network is unplugged, I run the program again, and it doesn't show any error messages.<BR>
<BR>
It seems that mpiexec will detect the network status at the runtime even the shm channel is selected.<BR>
<BR>
My question is that for -channel shm, it means shared memory, and any network state changed shouldn't affect the program using shared memory ?<BR>
<BR>
I am really confused.<BR>
<BR>
thanks,<BR>
<BR>
Seifer Lin<BR>
<BR>
<BR>
</FONT>
</P>

</BODY>
</HTML>