<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN">
<HTML><HEAD>
<META content="text/html; charset=us-ascii" http-equiv=Content-Type>
<META name=GENERATOR content="MSHTML 8.00.6001.18812"></HEAD>
<BODY>
<DIV dir=ltr align=left><SPAN class=609020122-28092009><FONT color=#0000ff 
size=2 face=Arial>ch3:sock won't perform as well as ch3:nemesis 
though.</FONT></SPAN></DIV>
<DIV dir=ltr align=left><SPAN class=609020122-28092009><FONT color=#0000ff 
size=2 face=Arial></FONT></SPAN>&nbsp;</DIV>
<DIV dir=ltr align=left><SPAN class=609020122-28092009><FONT color=#0000ff 
size=2 face=Arial>Rajeev</FONT></SPAN></DIV><BR>
<BLOCKQUOTE 
style="BORDER-LEFT: #0000ff 2px solid; PADDING-LEFT: 5px; MARGIN-LEFT: 5px; MARGIN-RIGHT: 0px">
  <DIV dir=ltr lang=en-us class=OutlookMessageHeader align=left>
  <HR tabIndex=-1>
  <FONT size=2 face=Tahoma><B>From:</B> mpich-discuss-bounces@mcs.anl.gov 
  [mailto:mpich-discuss-bounces@mcs.anl.gov] <B>On Behalf Of </B>Cye 
  Stoner<BR><B>Sent:</B> Monday, September 28, 2009 4:32 PM<BR><B>To:</B> 
  mpich-discuss@mcs.anl.gov<BR><B>Subject:</B> Re: [mpich-discuss] Problems 
  running mpi application on differentCPUs<BR></FONT><BR></DIV>
  <DIV></DIV>
  <DIV>When deploying MPICH2 to a small cluster, I noticed that many had 
  problems with the "--with-device=ch3:nemesis"</DIV>
  <DIV>Try using the "--with-device=ch3:sock" interface instead.</DIV>
  <DIV>&nbsp;</DIV>
  <DIV>Cye<BR><BR></DIV>
  <DIV class=gmail_quote>On Mon, Sep 28, 2009 at 12:13 PM, Rajeev Thakur <SPAN 
  dir=ltr>&lt;<A 
  href="mailto:thakur@mcs.anl.gov">thakur@mcs.anl.gov</A>&gt;</SPAN> wrote:<BR>
  <BLOCKQUOTE 
  style="BORDER-LEFT: #ccc 1px solid; MARGIN: 0px 0px 0px 0.8ex; PADDING-LEFT: 1ex" 
  class=gmail_quote>Try using the mpdcheck utility to debug as described in 
    the appendix of<BR>the installation guide. Pick one client and the 
    server.<BR>
    <DIV class=im><BR>Rajeev<BR><BR>&gt; -----Original Message-----<BR>&gt; 
    From: <A 
    href="mailto:mpich-discuss-bounces@mcs.anl.gov">mpich-discuss-bounces@mcs.anl.gov</A><BR>&gt; 
    [mailto:<A 
    href="mailto:mpich-discuss-bounces@mcs.anl.gov">mpich-discuss-bounces@mcs.anl.gov</A>] 
    On Behalf Of<BR>&gt; Gaetano Bellanca<BR></DIV>
    <DIV>
    <DIV></DIV>
    <DIV class=h5>&gt; Sent: Monday, September 28, 2009 6:00 AM<BR>&gt; Cc: <A 
    href="mailto:mpich-discuss@mcs.anl.gov">mpich-discuss@mcs.anl.gov</A><BR>&gt; 
    Subject: Re: [mpich-discuss] Problems running mpi application<BR>&gt; on 
    different CPUs<BR>&gt;<BR>&gt; Dear Rajeev,<BR>&gt;<BR>&gt; thanks for your 
    help. I disabled the firewall on the server (the only<BR>&gt; one running) 
    and tried with any other combination.<BR>&gt; All the clients together are 
    running correctly. The same for the<BR>&gt; processors on the server 
    separately.<BR>&gt; The problem is only when I mix processes on the server 
    and on<BR>&gt; the client.<BR>&gt;<BR>&gt; When I run mpdtrace on the 
    server, all the CPUs are<BR>&gt; responding correctly.<BR>&gt; The same 
    happens if I run in parallel 'hostname'<BR>&gt;<BR>&gt; Probably, it is a 
    problem of my code, but it works on a cluster of 10<BR>&gt; Pentium IV 
    PEs.<BR>&gt; I discover a 'strange behavior':<BR>&gt; 1) running the code 
    with the server as a first machine of the<BR>&gt; pool, the<BR>&gt; code 
    hangs with the previously communicated error;<BR>&gt; 2) if I put the server 
    as a second machine of the pool, the<BR>&gt; code starts<BR>&gt; and works 
    regularly up to the writing procedures, opens the<BR>&gt; first file<BR>&gt; 
    and then remains indefinitely waiting for something;<BR>&gt;<BR>&gt; Should 
    I compile mpich2 with some particular communicator? I have<BR>&gt; nemesis, 
    at the moment.<BR>&gt; I'm using this for mpich2 compilation:<BR>&gt; 
    ./configure --prefix=/opt/mpich2/1.1/intel11.1 --enable-cxx<BR>&gt; 
    --enable-f90<BR>&gt; --enable-fast --enable-traceback --with-mpe 
    --enable-f90modules<BR>&gt; --enable-cache --enable-romio 
    --with-file-system=nfs+ufs+pvfs2<BR>&gt; --with-device=ch3:nemesis 
    --with-pvfs2=/usr/local<BR>&gt; 
    --with-java=/usr/lib/jvm/java-6-sun-1.6.0.07/ 
    --with-pm=mpd:hydra<BR>&gt;<BR>&gt; Regards<BR>&gt;<BR>&gt; 
    Gaetano<BR>&gt;<BR>&gt; Rajeev Thakur ha scritto:<BR>&gt; &gt; Try running 
    on smaller subsets of the machines to debug the<BR>&gt; problem. It<BR>&gt; 
    &gt; is possible that a process on some machine cannot connect to 
    another<BR>&gt; &gt; because of some firewall settings.<BR>&gt; &gt;<BR>&gt; 
    &gt; Rajeev<BR>&gt; &gt;<BR>&gt; &gt;<BR>&gt; &gt;&gt; -----Original 
    Message-----<BR>&gt; &gt;&gt; From: <A 
    href="mailto:mpich-discuss-bounces@mcs.anl.gov">mpich-discuss-bounces@mcs.anl.gov</A><BR>&gt; 
    &gt;&gt; [mailto:<A 
    href="mailto:mpich-discuss-bounces@mcs.anl.gov">mpich-discuss-bounces@mcs.anl.gov</A>] 
    On Behalf Of<BR>&gt; Gaetano Bellanca<BR>&gt; &gt;&gt; Sent: Saturday, 
    September 26, 2009 7:10 AM<BR>&gt; &gt;&gt; To: <A 
    href="mailto:mpich-discuss@mcs.anl.gov">mpich-discuss@mcs.anl.gov</A><BR>&gt; 
    &gt;&gt; Subject: [mpich-discuss] Problems running mpi application 
    on<BR>&gt; &gt;&gt; different CPUs<BR>&gt; &gt;&gt;<BR>&gt; &gt;&gt; 
    Hi,<BR>&gt; &gt;&gt;<BR>&gt; &gt;&gt; I'm sorry but &nbsp;I posted with a 
    wrong Object my previous message!!!<BR>&gt; &gt;&gt;<BR>&gt; &gt;&gt; I have 
    a small cluster of<BR>&gt; &gt;&gt; a) 1 server: dual processor / quad core 
    Intel(R) Xeon(R) CPU &nbsp;E5345<BR>&gt; &gt;&gt; b) 4 clients: single 
    processor / dual core Intel(R)<BR>&gt; Core(TM)2 Duo CPU<BR>&gt; &gt;&gt; 
    E8400 connected &nbsp;with a 1Gbit/s ethernet network.<BR>&gt; 
    &gt;&gt;<BR>&gt; &gt;&gt; I compiled mpich2-1.1.1p1 on the first system (a) 
    and<BR>&gt; share mpich on<BR>&gt; &gt;&gt; the other computers via nfs. I 
    have mpd running as a root<BR>&gt; on all the<BR>&gt; &gt;&gt; computers 
    (ubunt 8.04 . kernel 2.6.24-24-server)<BR>&gt; &gt;&gt;<BR>&gt; &gt;&gt; 
    When I run my code in parallel on the first system, it works<BR>&gt; 
    &gt;&gt; correctly; the same happens running the same code &nbsp;in<BR>&gt; 
    parallel on the<BR>&gt; &gt;&gt; other computers (always running the code 
    from the server). On the<BR>&gt; &gt;&gt; contrary, running the code using 
    processors from both the<BR>&gt; server and<BR>&gt; &gt;&gt; the clients at 
    the same time with the command:<BR>&gt; &gt;&gt;<BR>&gt; &gt;&gt; mpiexec 
    -machinefile machinefile -n 4 my_parallel_code<BR>&gt; &gt;&gt;<BR>&gt; 
    &gt;&gt; I receive this error message:<BR>&gt; &gt;&gt;<BR>&gt; &gt;&gt; 
    Fatal error in MPI_Init: Other MPI error, error stack:<BR>&gt; &gt;&gt; 
    MPIR_Init_thread(394): Initialization failed<BR>&gt; &gt;&gt; (unknown)(): 
    Other MPI error<BR>&gt; &gt;&gt; rank 3 in job 8 &nbsp;c1_4545 &nbsp; caused 
    collective abort of all ranks<BR>&gt; &gt;&gt; &nbsp;exit status of rank 3: 
    return code 1<BR>&gt; &gt;&gt;<BR>&gt; &gt;&gt; Should I use some particular 
    flags in compilation or at run time?<BR>&gt; &gt;&gt;<BR>&gt; &gt;&gt; 
    Regards.<BR>&gt; &gt;&gt;<BR>&gt; &gt;&gt; Gaetano<BR>&gt; &gt;&gt;<BR>&gt; 
    &gt;&gt; --<BR>&gt; &gt;&gt; Gaetano Bellanca - Department of Engineering - 
    University<BR>&gt; of Ferrara<BR>&gt; &gt;&gt; Via Saragat, 1 - 44100 - 
    Ferrara - ITALY Voice (VoIP): +39 0532<BR>&gt; &gt;&gt; 974809 Fax: +39 0532 
    974870 mailto:<A 
    href="mailto:gaetano.bellanca@unife.it">gaetano.bellanca@unife.it</A><BR>&gt; 
    &gt;&gt;<BR>&gt; &gt;&gt; L'istruzione costa? Stanno provando con 
    l'ignoranza!<BR>&gt; &gt;&gt;<BR>&gt; &gt;&gt;<BR>&gt; &gt;&gt;<BR>&gt; 
    &gt;<BR>&gt; &gt;<BR>&gt; &gt;<BR>&gt;<BR>&gt; --<BR>&gt; Gaetano Bellanca - 
    Department of Engineering - University of Ferrara<BR>&gt; Via Saragat, 1 - 
    44100 - Ferrara - ITALY<BR>&gt; Voice (VoIP): +39 0532 974809 Fax: +39 0532 
    974870<BR>&gt; mailto:<A 
    href="mailto:gaetano.bellanca@unife.it">gaetano.bellanca@unife.it</A><BR>&gt;<BR>&gt; 
    L'istruzione costa? Stanno provando con 
    l'ignoranza!<BR>&gt;<BR>&gt;<BR>&gt;<BR><BR></DIV></DIV></BLOCKQUOTE></DIV><BR><BR 
  clear=all>
  <DIV></DIV><BR>-- <BR>"If you already know what recursion is, just remember 
  the answer. Otherwise, find someone who is standing closer to<BR>Douglas 
  Hofstadter than you are; then ask him or her what recursion is." - Andrew 
  Plotkin<BR></BLOCKQUOTE></BODY></HTML>