<div>When deploying MPICH2 to a small cluster, I noticed that many had problems with the &quot;--with-device=ch3:nemesis&quot;</div>
<div>Try using the &quot;--with-device=ch3:sock&quot; interface instead.</div>
<div> </div>
<div>Cye<br><br></div>
<div class="gmail_quote">On Mon, Sep 28, 2009 at 12:13 PM, Rajeev Thakur <span dir="ltr">&lt;<a href="mailto:thakur@mcs.anl.gov">thakur@mcs.anl.gov</a>&gt;</span> wrote:<br>
<blockquote style="BORDER-LEFT: #ccc 1px solid; MARGIN: 0px 0px 0px 0.8ex; PADDING-LEFT: 1ex" class="gmail_quote">Try using the mpdcheck utility to debug as described in the appendix of<br>the installation guide. Pick one client and the server.<br>

<div class="im"><br>Rajeev<br><br>&gt; -----Original Message-----<br>&gt; From: <a href="mailto:mpich-discuss-bounces@mcs.anl.gov">mpich-discuss-bounces@mcs.anl.gov</a><br>&gt; [mailto:<a href="mailto:mpich-discuss-bounces@mcs.anl.gov">mpich-discuss-bounces@mcs.anl.gov</a>] On Behalf Of<br>
&gt; Gaetano Bellanca<br></div>
<div>
<div></div>
<div class="h5">&gt; Sent: Monday, September 28, 2009 6:00 AM<br>&gt; Cc: <a href="mailto:mpich-discuss@mcs.anl.gov">mpich-discuss@mcs.anl.gov</a><br>&gt; Subject: Re: [mpich-discuss] Problems running mpi application<br>
&gt; on different CPUs<br>&gt;<br>&gt; Dear Rajeev,<br>&gt;<br>&gt; thanks for your help. I disabled the firewall on the server (the only<br>&gt; one running) and tried with any other combination.<br>&gt; All the clients together are running correctly. The same for the<br>
&gt; processors on the server separately.<br>&gt; The problem is only when I mix processes on the server and on<br>&gt; the client.<br>&gt;<br>&gt; When I run mpdtrace on the server, all the CPUs are<br>&gt; responding correctly.<br>
&gt; The same happens if I run in parallel &#39;hostname&#39;<br>&gt;<br>&gt; Probably, it is a problem of my code, but it works on a cluster of 10<br>&gt; Pentium IV PEs.<br>&gt; I discover a &#39;strange behavior&#39;:<br>
&gt; 1) running the code with the server as a first machine of the<br>&gt; pool, the<br>&gt; code hangs with the previously communicated error;<br>&gt; 2) if I put the server as a second machine of the pool, the<br>&gt; code starts<br>
&gt; and works regularly up to the writing procedures, opens the<br>&gt; first file<br>&gt; and then remains indefinitely waiting for something;<br>&gt;<br>&gt; Should I compile mpich2 with some particular communicator? I have<br>
&gt; nemesis, at the moment.<br>&gt; I&#39;m using this for mpich2 compilation:<br>&gt; ./configure --prefix=/opt/mpich2/1.1/intel11.1 --enable-cxx<br>&gt; --enable-f90<br>&gt; --enable-fast --enable-traceback --with-mpe --enable-f90modules<br>
&gt; --enable-cache --enable-romio --with-file-system=nfs+ufs+pvfs2<br>&gt; --with-device=ch3:nemesis --with-pvfs2=/usr/local<br>&gt; --with-java=/usr/lib/jvm/java-6-sun-1.6.0.07/ --with-pm=mpd:hydra<br>&gt;<br>&gt; Regards<br>
&gt;<br>&gt; Gaetano<br>&gt;<br>&gt; Rajeev Thakur ha scritto:<br>&gt; &gt; Try running on smaller subsets of the machines to debug the<br>&gt; problem. It<br>&gt; &gt; is possible that a process on some machine cannot connect to another<br>
&gt; &gt; because of some firewall settings.<br>&gt; &gt;<br>&gt; &gt; Rajeev<br>&gt; &gt;<br>&gt; &gt;<br>&gt; &gt;&gt; -----Original Message-----<br>&gt; &gt;&gt; From: <a href="mailto:mpich-discuss-bounces@mcs.anl.gov">mpich-discuss-bounces@mcs.anl.gov</a><br>
&gt; &gt;&gt; [mailto:<a href="mailto:mpich-discuss-bounces@mcs.anl.gov">mpich-discuss-bounces@mcs.anl.gov</a>] On Behalf Of<br>&gt; Gaetano Bellanca<br>&gt; &gt;&gt; Sent: Saturday, September 26, 2009 7:10 AM<br>&gt; &gt;&gt; To: <a href="mailto:mpich-discuss@mcs.anl.gov">mpich-discuss@mcs.anl.gov</a><br>
&gt; &gt;&gt; Subject: [mpich-discuss] Problems running mpi application on<br>&gt; &gt;&gt; different CPUs<br>&gt; &gt;&gt;<br>&gt; &gt;&gt; Hi,<br>&gt; &gt;&gt;<br>&gt; &gt;&gt; I&#39;m sorry but  I posted with a wrong Object my previous message!!!<br>
&gt; &gt;&gt;<br>&gt; &gt;&gt; I have a small cluster of<br>&gt; &gt;&gt; a) 1 server: dual processor / quad core Intel(R) Xeon(R) CPU  E5345<br>&gt; &gt;&gt; b) 4 clients: single processor / dual core Intel(R)<br>&gt; Core(TM)2 Duo CPU<br>
&gt; &gt;&gt; E8400 connected  with a 1Gbit/s ethernet network.<br>&gt; &gt;&gt;<br>&gt; &gt;&gt; I compiled mpich2-1.1.1p1 on the first system (a) and<br>&gt; share mpich on<br>&gt; &gt;&gt; the other computers via nfs. I have mpd running as a root<br>
&gt; on all the<br>&gt; &gt;&gt; computers (ubunt 8.04 . kernel 2.6.24-24-server)<br>&gt; &gt;&gt;<br>&gt; &gt;&gt; When I run my code in parallel on the first system, it works<br>&gt; &gt;&gt; correctly; the same happens running the same code  in<br>
&gt; parallel on the<br>&gt; &gt;&gt; other computers (always running the code from the server). On the<br>&gt; &gt;&gt; contrary, running the code using processors from both the<br>&gt; server and<br>&gt; &gt;&gt; the clients at the same time with the command:<br>
&gt; &gt;&gt;<br>&gt; &gt;&gt; mpiexec -machinefile machinefile -n 4 my_parallel_code<br>&gt; &gt;&gt;<br>&gt; &gt;&gt; I receive this error message:<br>&gt; &gt;&gt;<br>&gt; &gt;&gt; Fatal error in MPI_Init: Other MPI error, error stack:<br>
&gt; &gt;&gt; MPIR_Init_thread(394): Initialization failed<br>&gt; &gt;&gt; (unknown)(): Other MPI error<br>&gt; &gt;&gt; rank 3 in job 8  c1_4545   caused collective abort of all ranks<br>&gt; &gt;&gt;  exit status of rank 3: return code 1<br>
&gt; &gt;&gt;<br>&gt; &gt;&gt; Should I use some particular flags in compilation or at run time?<br>&gt; &gt;&gt;<br>&gt; &gt;&gt; Regards.<br>&gt; &gt;&gt;<br>&gt; &gt;&gt; Gaetano<br>&gt; &gt;&gt;<br>&gt; &gt;&gt; --<br>
&gt; &gt;&gt; Gaetano Bellanca - Department of Engineering - University<br>&gt; of Ferrara<br>&gt; &gt;&gt; Via Saragat, 1 - 44100 - Ferrara - ITALY Voice (VoIP): +39 0532<br>&gt; &gt;&gt; 974809 Fax: +39 0532 974870 mailto:<a href="mailto:gaetano.bellanca@unife.it">gaetano.bellanca@unife.it</a><br>
&gt; &gt;&gt;<br>&gt; &gt;&gt; L&#39;istruzione costa? Stanno provando con l&#39;ignoranza!<br>&gt; &gt;&gt;<br>&gt; &gt;&gt;<br>&gt; &gt;&gt;<br>&gt; &gt;<br>&gt; &gt;<br>&gt; &gt;<br>&gt;<br>&gt; --<br>&gt; Gaetano Bellanca - Department of Engineering - University of Ferrara<br>
&gt; Via Saragat, 1 - 44100 - Ferrara - ITALY<br>&gt; Voice (VoIP): +39 0532 974809 Fax: +39 0532 974870<br>&gt; mailto:<a href="mailto:gaetano.bellanca@unife.it">gaetano.bellanca@unife.it</a><br>&gt;<br>&gt; L&#39;istruzione costa? Stanno provando con l&#39;ignoranza!<br>
&gt;<br>&gt;<br>&gt;<br><br></div></div></blockquote></div><br><br clear="all">
<div></div><br>-- <br>&quot;If you already know what recursion is, just remember the answer. Otherwise, find someone who is standing closer to<br>Douglas Hofstadter than you are; then ask him or her what recursion is.&quot; - Andrew Plotkin<br>