<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 3.2//EN">
<HTML>
<HEAD>
<META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=us-ascii">
<META NAME="Generator" CONTENT="MS Exchange Server version 6.5.7036.0">
<TITLE>RE: [mpich-discuss] mpiexec kills the remote login shell</TITLE>
</HEAD>
<BODY>
<!-- Converted from text/plain format -->

<P><FONT SIZE=2>&nbsp;Hi,<BR>
&nbsp; Does smpd abort when you run your MPI job ?<BR>
<BR>
Regards,<BR>
Jayesh<BR>
<BR>
-----Original Message-----<BR>
From: Yu-Cheng Chou [<A HREF="mailto:cycchou@ucdavis.edu">mailto:cycchou@ucdavis.edu</A>]<BR>
Sent: Wednesday, February 04, 2009 1:56 PM<BR>
To: Jayesh Krishna<BR>
Cc: mpich-discuss@mcs.anl.gov<BR>
Subject: Re: [mpich-discuss] mpiexec kills the remote login shell<BR>
<BR>
Hi<BR>
<BR>
I can cross-compile the program and then simply run the executable on Korebot with no errors.<BR>
<BR>
<BR>
&gt; Hi,<BR>
&gt;&nbsp; Can you try running (without mpiexec) a simple C program with<BR>
&gt; exit(-1) on Korebot ?<BR>
&gt;<BR>
&gt; ========================================<BR>
&gt; #include &lt;stdlib.h&gt;<BR>
&gt; int main(int argc, char *argv[])<BR>
&gt; {<BR>
&gt;&nbsp;&nbsp;&nbsp;&nbsp; exit(-1);<BR>
&gt; }<BR>
&gt; ========================================<BR>
&gt;<BR>
&gt; Regards,<BR>
&gt; Jayesh<BR>
&gt; ________________________________<BR>
&gt; From: mpich-discuss-bounces@mcs.anl.gov<BR>
&gt; [<A HREF="mailto:mpich-discuss-bounces@mcs.anl.gov">mailto:mpich-discuss-bounces@mcs.anl.gov</A>] On Behalf Of Jayesh Krishna<BR>
&gt; Sent: Wednesday, February 04, 2009 1:04 PM<BR>
&gt; To: 'Yu-Cheng Chou'<BR>
&gt; Cc: mpich-discuss@mcs.anl.gov<BR>
&gt; Subject: Re: [mpich-discuss] mpiexec kills the remote login shell<BR>
&gt;<BR>
&gt;&nbsp; Hi,<BR>
&gt;&nbsp;&nbsp; Can you also attach the corresponding smpd debug output ?<BR>
&gt;<BR>
&gt; Regards,<BR>
&gt; Jayesh<BR>
&gt;<BR>
&gt; -----Original Message-----<BR>
&gt; From: Yu-Cheng Chou [<A HREF="mailto:cycchou@ucdavis.edu">mailto:cycchou@ucdavis.edu</A>]<BR>
&gt; Sent: Wednesday, February 04, 2009 1:02 PM<BR>
&gt; To: Jayesh Krishna<BR>
&gt; Cc: mpich-discuss@mcs.anl.gov<BR>
&gt; Subject: Re: [mpich-discuss] mpiexec kills the remote login shell<BR>
&gt;<BR>
&gt; Hi,<BR>
&gt;<BR>
&gt; Firstly, the previously attached mpiexec verbose output is a wrong one.<BR>
&gt; I've attached the correct one to this email.<BR>
&gt;<BR>
&gt; Secondly, I want to point out that as long as mpiexec is initiated<BR>
&gt; from Korebot to run a program, no matter it's a MPI or non-MPI<BR>
&gt; program, no matter the program can be found or not, as soon as mpiexec<BR>
&gt; is finished, the ssh connection to Korebot will be gone.<BR>
&gt;<BR>
&gt; Thank you<BR>
&gt;<BR>
&gt;<BR>
&gt;&gt; Hi,<BR>
&gt;&gt;&nbsp;&nbsp; The mpiexec output shows the following error when running hellow,<BR>
&gt;&gt; ==================<BR>
&gt;&gt;<BR>
&gt;&gt; Unable to exec 'hello' on korebot<BR>
&gt;&gt;<BR>
&gt;&gt; Error 2 - No such file or directory<BR>
&gt;&gt;<BR>
&gt;&gt; ==================<BR>
&gt;&gt;<BR>
&gt;&gt;&nbsp;&nbsp; Please provide the debug output of smpd (smpd -d 2&gt;&amp;1 | tee<BR>
&gt;&gt; smpd.out) along with mpiexec (mpiexec -verbose -n 2 ./hellow 2&gt;&amp;1 |<BR>
&gt;&gt; tee mpiexec.out).<BR>
&gt;&gt;<BR>
&gt;&gt; #&nbsp; Can you run simple C programs (without using mpiexec) on Korbet ?<BR>
&gt;&gt; #&nbsp; Is the ssh connection aborted when you run non-MPI programs<BR>
&gt;&gt; (mpiexec -n 2<BR>
&gt;&gt; hostname) ?<BR>
&gt;&gt; #&nbsp; Can you send us your &quot;.smpd&quot; config file ?<BR>
&gt;&gt; #&nbsp; Did you modify the MPICH2 code to run on Korbet (Please send us<BR>
&gt;&gt; your configure command &amp; any env settings set to configure/make MPICH2)?<BR>
&gt;&gt;<BR>
&gt;&gt; Regards,<BR>
&gt;&gt; Jayesh<BR>
&gt;&gt;<BR>
&gt;&gt; ________________________________<BR>
&gt;&gt; From: mpich-discuss-bounces@mcs.anl.gov<BR>
&gt;&gt; [<A HREF="mailto:mpich-discuss-bounces@mcs.anl.gov">mailto:mpich-discuss-bounces@mcs.anl.gov</A>] On Behalf Of Jayesh<BR>
&gt;&gt; Krishna<BR>
&gt;&gt; Sent: Wednesday, February 04, 2009 8:41 AM<BR>
&gt;&gt; To: 'Yu-Cheng Chou'<BR>
&gt;&gt; Cc: mpich-discuss@mcs.anl.gov<BR>
&gt;&gt; Subject: Re: [mpich-discuss] mpiexec kills the remote login shell<BR>
&gt;&gt;<BR>
&gt;&gt;&nbsp; Hi,<BR>
&gt;&gt;&nbsp;&nbsp; I will take a look at the debug logs and get back to you.<BR>
&gt;&gt; Meanwhile, can you run simple C programs without using mpiexec on Korbet ?<BR>
&gt;&gt;&nbsp;&nbsp; MPICH2 currently does not support heterogeneous systems (So you<BR>
&gt;&gt; won't be able to run your MPI job across ARM &amp; other architectures).<BR>
&gt;&gt;<BR>
&gt;&gt; Regards,<BR>
&gt;&gt; Jayesh<BR>
&gt;&gt;<BR>
&gt;&gt; -----Original Message-----<BR>
&gt;&gt; From: Yu-Cheng Chou [<A HREF="mailto:cycchou@ucdavis.edu">mailto:cycchou@ucdavis.edu</A>]<BR>
&gt;&gt; Sent: Tuesday, February 03, 2009 7:52 PM<BR>
&gt;&gt; To: Jayesh Krishna<BR>
&gt;&gt; Cc: mpich-discuss@mcs.anl.gov<BR>
&gt;&gt; Subject: Re: [mpich-discuss] mpiexec kills the remote login shell<BR>
&gt;&gt;<BR>
&gt;&gt;&gt; # Can you run non-MPI programs using mpiexec (mpiexec -n 2 hostname) ?<BR>
&gt;&gt; Yes.<BR>
&gt;&gt;<BR>
&gt;&gt;&gt; # Can you compile and run the hello world program<BR>
&gt;&gt;&gt; (examples/hellow.c) provided with MPICH2 (mpiexec -n 2 ./hellow)?<BR>
&gt;&gt; Yes.<BR>
&gt;&gt;<BR>
&gt;&gt;&gt; # How did you start smpd (the command used to start smpd) ? How did<BR>
&gt;&gt;&gt; you run your MPI job (the command used to run your job)?<BR>
&gt;&gt; I have a &quot;.smpd&quot; file containing one line of information, which is<BR>
&gt;&gt; &quot;phrase=123&quot;.<BR>
&gt;&gt; Thus, I started smpd using &quot;smpd -s&quot;.<BR>
&gt;&gt; Then I used &quot;mpiexec -n 1 hellow&quot; to run hellow on Korebot.<BR>
&gt;&gt;<BR>
&gt;&gt;&gt; # How did you find that mpiexec kills the sshd process (We typically<BR>
&gt;&gt;&gt; ssh to unix machines and run mpiexec without any problems) ?<BR>
&gt;&gt; I logged in Korebot with two terminals.<BR>
&gt;&gt; &gt;From #1 terminal, I checked all the processes running on Korebot.<BR>
&gt;&gt; &gt;From #2 terminal, I started smpd and run hellow using the commands<BR>
&gt;&gt; mentioned above.<BR>
&gt;&gt; After hellow was finished, the connection to Korebot via #2 terminal<BR>
&gt;&gt; was closed.<BR>
&gt;&gt; &gt;From #1 terminal, I knew that the sshd process associated with #2<BR>
&gt;&gt; &gt;terminal<BR>
&gt;&gt; was gone.<BR>
&gt;&gt;<BR>
&gt;&gt;&gt;&nbsp; Can you run smpd/mpiexec in debug mode and provide us with the<BR>
&gt;&gt;&gt; outputs (smpd -d / mpiexec -n 2 -verbose hostname) ?<BR>
&gt;&gt; The first attached text file is the output from running hellow in<BR>
&gt;&gt; mpiexec's verbose mode.<BR>
&gt;&gt;<BR>
&gt;&gt;<BR>
&gt;&gt; There is another issue.<BR>
&gt;&gt; This time, I used two machines. One is Korebot as mentioned above,<BR>
&gt;&gt; and the other is a laptop running Ubuntu Linux OS.<BR>
&gt;&gt; I started smpd with the same &quot;.smpd&quot; file and command as mentioned<BR>
&gt;&gt; above both on Korebot and the lap top.<BR>
&gt;&gt; There is a machine file called &quot;hostfile&quot; on Korebot. The file<BR>
&gt;&gt; contains the following information about the name of the two machines.<BR>
&gt;&gt;<BR>
&gt;&gt; korebot<BR>
&gt;&gt; shrimp<BR>
&gt;&gt;<BR>
&gt;&gt; Then from Korebot, I ran cpi using the following command.<BR>
&gt;&gt;<BR>
&gt;&gt; mpiexec -machinefile ./hostfile -verbose -n 2 cpi<BR>
&gt;&gt;<BR>
&gt;&gt;<BR>
&gt;&gt; But the value of pi is a huge number. I think it is related to<BR>
&gt;&gt; &quot;double type variables&quot; being transferred between processes running<BR>
&gt;&gt; on an ARM-based Linux and a general Linux machines.<BR>
&gt;&gt;<BR>
&gt;&gt; The second attached text file is the output from running cpi in<BR>
&gt;&gt; mpiexec's verbose mode.<BR>
&gt;&gt;<BR>
&gt;&gt;<BR>
&gt;&gt;&gt;<BR>
&gt;&gt;&gt; I am cross-compiling mpich2-1.0.8 with smpd for Khepera III mobile robot.<BR>
&gt;&gt;&gt;<BR>
&gt;&gt;&gt; This mobile robot has a Korebot board which is an ARM-based computer<BR>
&gt;&gt;&gt; with a Linux operating system.<BR>
&gt;&gt;&gt;<BR>
&gt;&gt;&gt; The cross-compilation was fine.<BR>
&gt;&gt;&gt;<BR>
&gt;&gt;&gt; Firstly, I logged in to Korebot through ssh.<BR>
&gt;&gt;&gt; Secondly, I started smpd.<BR>
&gt;&gt;&gt; Thirdly, I ran mpiexec to execute an MPI program (cpi) that comes<BR>
&gt;&gt;&gt; with the package.<BR>
&gt;&gt;&gt;<BR>
&gt;&gt;&gt; The result was correct, but when mpiexec was finished, the ssh<BR>
&gt;&gt;&gt; connection to the Korebot was closed.<BR>
&gt;&gt;&gt; I found that mpiexec kills the sshd process through which I was<BR>
&gt;&gt;&gt; remotely connected to Korebot.<BR>
&gt;&gt;&gt;<BR>
&gt;&gt;&gt; I've been looking for the cause, but still have not found any clues.<BR>
&gt;&gt;&gt;<BR>
&gt;&gt;&gt; Could you give me any ideas to solve this problem?<BR>
&gt;&gt;&gt;<BR>
&gt;&gt;&gt; Thank you,<BR>
&gt;&gt;&gt;<BR>
&gt;&gt;&gt; Yu-Cheng<BR>
&gt;&gt;&gt;<BR>
&gt;&gt;<BR>
&gt;<BR>
</FONT>
</P>

</BODY>
</HTML>