<div>HI,</div>
<div>&nbsp;</div>
<div>I do the following test</div>
<div>&nbsp;</div>
<div>D:\test_mpi\release&gt;mpiexec -channel shm -n 4 test_mpich2.exe<br>iter=0, cpuid=1, ncpu=4<br>iter=0, cpuid=2, ncpu=4<br>iter=0, cpuid=3, ncpu=4<br>iter=0, cpuid=0, ncpu=4<br>iter=1, cpuid=2, ncpu=4<br>iter=1, cpuid=1, ncpu=4<br>
iter=1, cpuid=0, ncpu=4<br>iter=1, cpuid=3, ncpu=4<br>iter=2, cpuid=2, ncpu=4<br>iter=2, cpuid=3, ncpu=4<br>iter=2, cpuid=1, ncpu=4<br>iter=2, cpuid=0, ncpu=4<br>op_read error on left context: generic socket failure, error stack:<br>
MPIDU_Sock_wait(2533): The specified network name is no longer available. (errno<br>&nbsp;64)<br>unable to read the cmd header on the left context, generic socket failure, error<br>&nbsp;stack:<br>MPIDU_Sock_wait(2533): The specified network name is no longer available. (errno<br>
&nbsp;64).</div>
<div>&nbsp;</div>
<div>I unplug the network line while the iter=1 is displayed.</div>
<div>&nbsp;</div>
<div>thank tou very much</div>
<div>&nbsp;</div>
<div>&nbsp;</div>
<div>&nbsp;</div>
<div class="gmail_quote">2008/5/28 Jayesh Krishna &lt;<a href="mailto:jayesh@mcs.anl.gov">jayesh@mcs.anl.gov</a>&gt;:<br>
<blockquote class="gmail_quote" style="PADDING-LEFT: 1ex; MARGIN: 0px 0px 0px 0.8ex; BORDER-LEFT: #ccc 1px solid">
<div>
<p><font size="2">&nbsp;Hi,<br>&nbsp; Specifying &quot;shm&quot; as the channel ensures that all MPI communication (btw the MPI processes) is done using shared memory. The error messages that you see could be from the process launcher or the process manager.<br>
&nbsp; Do you really need to use the &quot;-localonly&quot; option (Specifying the option you might end up seeing some error messages which are handled within the library and does not effect the MPI job)? You can run your job as &quot;mpiexec -channel shm -n 4 myapp.exe&quot;. Let us know if you still see the error messages (If yes, please copy-paste the error mesgs in your email)<br>
<br>Regards,<br><font color="#888888">Jayesh</font> 
<div>
<div></div>
<div class="Wj3C7c"><br><br>-----Original Message-----<br>From: <a href="mailto:owner-mpich-discuss@mcs.anl.gov" target="_blank">owner-mpich-discuss@mcs.anl.gov</a> [<a href="mailto:owner-mpich-discuss@mcs.anl.gov" target="_blank">mailto:owner-mpich-discuss@mcs.anl.gov</a>] On Behalf Of Seifer Lin<br>
Sent: Wednesday, May 28, 2008 2:32 AM<br>To: <a href="mailto:mpich-discuss@mcs.anl.gov" target="_blank">mpich-discuss@mcs.anl.gov</a><br>Subject: [mpich-discuss]network failure during the execution of parallel program<br>
<br>Hi all:<br><br>I test a parallel program in a single machine with 4 processes.<br>The program only outputs ncpu and cpuid every 5 seconds<br>I use&nbsp;&nbsp; mpiexec -localonly 4 myapp.exe<br>During the execution, I unplug the network line, and the program shows some error messages like generic socket failure.<br>
<br>If I use mpiexec -channel shm -n 4 myapp.exe, and also unplug the network line, the same error messages are showed again.<br>After the network is unplugged, I run the program again, and it doesn&#39;t show any error messages.<br>
<br>It seems that mpiexec will detect the network status at the runtime even the shm channel is selected.<br><br>My question is that for -channel shm, it means shared memory, and any network state changed shouldn&#39;t affect the program using shared memory ?<br>
<br>I am really confused.<br><br>thanks,<br><br>Seifer Lin<br><br><br></div></div></font>
<p></p></p></div></blockquote></div><br>