<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 3.2//EN">
<HTML>
<HEAD>
<META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=us-ascii">
<META NAME="Generator" CONTENT="MS Exchange Server version 6.5.7036.0">
<TITLE>RE: [mpich-discuss] IMB 3.1 with TOL 0 crashes on Allreduce</TITLE>
</HEAD>
<BODY>
<!-- Converted from text/plain format -->

<P><FONT SIZE=2>&nbsp;Hi,<BR>
&nbsp; I tried the allreduce test in IMB on a 64-bit machine with 2 dual core procs (total 4 cores) and did not get any errors.<BR>
&nbsp; Can you try the following ?,<BR>
<BR>
# Disable hyperthreading<BR>
# Download the latest version of MPICH2 (available at <A HREF="http://www.mcs.anl.gov/research/projects/mpich2/downloads/index.php?s=downloads">http://www.mcs.anl.gov/research/projects/mpich2/downloads/index.php?s=downloads</A>). Uninstall any existing version of MPICH2 in your system and install the downloaded version.<BR>
# Remove any modifications that you made to IMB. It would be best to use a fresh download of IMB.<BR>
# Recompile IMB (Note that you should link your applications with mpi.lib NOT mpich2.lib.)<BR>
# Rerun the allreduce benchmark (on the local machine - &quot;mpiexec -n 2 imb-mpi1.exe allreduce&quot;)<BR>
<BR>
&nbsp; Let us know the results.<BR>
<BR>
Regards,<BR>
Jayesh<BR>
<BR>
-----Original Message-----<BR>
From: Calin Iaru [<A HREF="mailto:calin@dolphinics.com">mailto:calin@dolphinics.com</A>]<BR>
Sent: Friday, May 30, 2008 11:58 AM<BR>
To: Jayesh Krishna<BR>
Cc: mpich-discuss@mcs.anl.gov<BR>
Subject: Re: [mpich-discuss] IMB 3.1 with TOL 0 crashes on Allreduce<BR>
<BR>
IMB is compiled with Studio 2003 command prompt by launching &quot;nmake -f make_ict_win&quot;, links to Program Files\mpich2\lib\mpich2.lib; the machine where it runs has 2 cpus that run with hyperthreading enabled and is also the build machine. I ran it on both CPUs and on the same CPU by adding a SetProcessAffinityMask before MPI_Init.<BR>
<BR>
I added some information like the hexadecimal representation of the expected value and the hexadecimal representation of the difference between the expected and the arrived value.<BR>
<BR>
<BR>
<BR>
Jayesh Krishna wrote:<BR>
&gt;<BR>
&gt;&nbsp; Hi,<BR>
&gt;&nbsp;&nbsp; Please provide us as much details as possible so that we can help<BR>
&gt; with your problem (I am not able to reproduce the error in our lab. I<BR>
&gt; tried allreduce - 16 procs, reduce - 2 procs, reduce_scatter - 2<BR>
&gt; procs, on an x86 WinXP machine with 1 proc).<BR>
&gt;<BR>
&gt; # Make sure that you compile the IMB 3.1 suite in your local machine<BR>
&gt; (don't execute an executable created on another machine - to narrow<BR>
&gt; down on the pblm) # Run your job as &quot;mpiexec -n 2 imb-mpi1.exe<BR>
&gt; allreduce&quot;<BR>
&gt; # Are you running your tests on a multi-core machine ?<BR>
&gt;<BR>
&gt;&nbsp;&nbsp; Once again pls provide as much details as possible in your reply.<BR>
&gt;<BR>
&gt; Regards,<BR>
&gt; Jayesh<BR>
&gt;<BR>
&gt; -----Original Message-----<BR>
&gt; From: Calin Iaru [<A HREF="mailto:calin@dolphinics.com">mailto:calin@dolphinics.com</A>]<BR>
&gt; Sent: Friday, May 30, 2008 9:48 AM<BR>
&gt; To: Jayesh Krishna<BR>
&gt; Cc: mpich-discuss@mcs.anl.gov<BR>
&gt; Subject: Re: [mpich-discuss] IMB 3.1 with TOL 0 crashes on Allreduce<BR>
&gt;<BR>
&gt; 1) the job crashes on one machine with -n 2 at the same transfers:<BR>
&gt; Allreduce, Reduce and Reduce_scatter. Jobs are running on Win32 only.<BR>
&gt;<BR>
&gt; Jayesh Krishna wrote:<BR>
&gt; &gt;<BR>
&gt; &gt;&nbsp; Hi,<BR>
&gt; &gt;&nbsp;&nbsp; Any inputs on the other points that I mentioned in my prev email ?<BR>
&gt; &gt;<BR>
&gt; &gt; Regards,<BR>
&gt; &gt; Jayesh<BR>
&gt; &gt;<BR>
&gt; &gt; -----Original Message-----<BR>
&gt; &gt; From: Calin Iaru [<A HREF="mailto:calin@dolphinics.com">mailto:calin@dolphinics.com</A>]<BR>
&gt; &gt; Sent: Friday, May 30, 2008 8:17 AM<BR>
&gt; &gt; To: Jayesh Krishna<BR>
&gt; &gt; Cc: mpich-discuss@mcs.anl.gov<BR>
&gt; &gt; Subject: Re: [mpich-discuss] IMB 3.1 with TOL 0 crashes on Allreduce<BR>
&gt; &gt;<BR>
&gt; &gt; Hi Jayesh,<BR>
&gt; &gt;<BR>
&gt; &gt;&nbsp;&nbsp;&nbsp;&nbsp; besides Allreduce, there is Reduce and Reduce_Scatter that fails.<BR>
&gt; &gt;<BR>
&gt; &gt; Best regards,<BR>
&gt; &gt;&nbsp;&nbsp;&nbsp;&nbsp; Calin<BR>
&gt; &gt;<BR>
&gt; &gt; Jayesh Krishna wrote:<BR>
&gt; &gt; &gt;<BR>
&gt; &gt; &gt;&nbsp; Hi,<BR>
&gt; &gt; &gt;&nbsp;&nbsp; I tried running the IMB 3.1 suite for allreduce on a single<BR>
&gt; &gt; &gt; machine with upto 8 procs and did not get any errors.<BR>
&gt; &gt; &gt;<BR>
&gt; &gt; &gt; 1) Make sure that both node-1 &amp; node-2 have the same data model<BR>
&gt; &gt; &gt; (data type representation). Please note that MPICH2 currently does<BR>
&gt; &gt; &gt; not support heterogeneous systems (wrt the data models used by the<BR>
&gt; &gt; &gt; machines, for eg: you cannot run MPI procs across x86 and x64<BR>
&gt; &gt; &gt; machines). If you need to run your program across a heterogeneous<BR>
&gt; &gt; &gt; system please use MPICH1 instead.<BR>
&gt; &gt; &gt;<BR>
&gt; &gt; &gt; 2) Try running the benchmark on a single node/host (mpiexec -n 2<BR>
&gt; &gt; &gt; imb-mpi1.exe allreduce) and let us know the results.<BR>
&gt; &gt; &gt; 3) Are you able to run other tests in the IMB 3.1 suite ?<BR>
&gt; &gt; &gt;<BR>
&gt; &gt; &gt; Regards,<BR>
&gt; &gt; &gt; Jayesh<BR>
&gt; &gt; &gt;<BR>
&gt; &gt; &gt; -----Original Message-----<BR>
&gt; &gt; &gt; From: owner-mpich-discuss@mcs.anl.gov<BR>
&gt; &gt; &gt; [<A HREF="mailto:owner-mpich-discuss@mcs.anl.gov">mailto:owner-mpich-discuss@mcs.anl.gov</A>] On Behalf Of Calin Iaru<BR>
&gt; &gt; &gt; Sent: Monday, May 26, 2008 5:50 AM<BR>
&gt; &gt; &gt; To: mpich-discuss@mcs.anl.gov<BR>
&gt; &gt; &gt; Subject: [mpich-discuss] IMB 3.1 with TOL 0 crashes on Allreduce<BR>
&gt; &gt; &gt;<BR>
&gt; &gt; &gt; The problem is that the latest mpich2 in combination with IMB 3.1<BR>
&gt; &gt; &gt; generates a data corruption error when running on 2 nodes. IMB was<BR>
&gt; &gt; &gt; compiled with the CHECK flag and TOL set to 0 inside IMB_declare.h.<BR>
&gt; &gt; &gt; I am not sure if this is a transport error or a verification<BR>
&gt; &gt; &gt; error; it could be that the problem lies in the application code.<BR>
&gt; &gt; &gt;<BR>
&gt; &gt; &gt; E:\Program Files\MPICH2\bin&gt;mpiexec.exe -hosts 2 node-1 node-2<BR>
&gt; &gt; &gt; \\node-1\e$\imb-mpi1.exe allreduce<BR>
&gt; &gt; &gt; #---------------------------------------------------<BR>
&gt; &gt; &gt; #&nbsp;&nbsp;&nbsp; Intel (R) MPI Benchmark Suite V3.1, MPI-1 part<BR>
&gt; &gt; &gt; #---------------------------------------------------<BR>
&gt; &gt; &gt; # Date&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; : Fri May 23 14:44:12 2008<BR>
&gt; &gt; &gt; # Machine&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; : x86 Family 15 Model 4 Stepping 1,<BR>
&gt; GenuineIntel<BR>
&gt; &gt; &gt; # System&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; : Windows 2003<BR>
&gt; &gt; &gt; # Release&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; : 5.2.3790<BR>
&gt; &gt; &gt; # Version&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; : Service Pack 1<BR>
&gt; &gt; &gt; # MPI Version&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; : 2.0<BR>
&gt; &gt; &gt; # MPI Thread Environment: MPI_THREAD_SINGLE<BR>
&gt; &gt; &gt;<BR>
&gt; &gt; &gt;<BR>
&gt; &gt; &gt;<BR>
&gt; &gt; &gt; # Calling sequence was:<BR>
&gt; &gt; &gt;<BR>
&gt; &gt; &gt; # \\node-1\e$\imb-mpi1.exe allreduce<BR>
&gt; &gt; &gt;<BR>
&gt; &gt; &gt; # Minimum message length in bytes:&nbsp;&nbsp; 0<BR>
&gt; &gt; &gt; # Maximum message length in bytes:&nbsp;&nbsp; 4194304<BR>
&gt; &gt; &gt; #<BR>
&gt; &gt; &gt; # MPI_Datatype&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; :&nbsp;&nbsp; MPI_BYTE<BR>
&gt; &gt; &gt; # MPI_Datatype for reductions&nbsp;&nbsp;&nbsp; :&nbsp;&nbsp; MPI_FLOAT<BR>
&gt; &gt; &gt; # MPI_Op&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; :&nbsp;&nbsp; MPI_SUM<BR>
&gt; &gt; &gt; #<BR>
&gt; &gt; &gt; #<BR>
&gt; &gt; &gt;<BR>
&gt; &gt; &gt; # List of Benchmarks to run:<BR>
&gt; &gt; &gt;<BR>
&gt; &gt; &gt; # Allreduce<BR>
&gt; &gt; &gt;<BR>
&gt; &gt; &gt; #-----------------------------------------------------------------<BR>
&gt; &gt; &gt; --<BR>
&gt; &gt; &gt; --<BR>
&gt; &gt; &gt; --------<BR>
&gt; &gt; &gt; # Benchmarking Allreduce<BR>
&gt; &gt; &gt; # #processes = 2<BR>
&gt; &gt; &gt;<BR>
&gt; &gt; #-------------------------------------------------------------------<BR>
&gt; &gt; --<BR>
&gt; &gt; --------<BR>
&gt; &gt; &gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; #bytes #repetitions&nbsp; t_min[usec]&nbsp; t_max[usec]&nbsp; t_avg[usec]&nbsp;&nbsp;<BR>
&gt; &gt; &gt; defects<BR>
&gt; &gt; &gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 0&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 1000&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 0.51&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 0.52&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<BR>
&gt; &gt; &gt; 0.51&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 0.00<BR>
&gt; &gt; &gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 4&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 1000&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 80.30&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 80.35&nbsp;&nbsp;&nbsp;&nbsp;<BR>
&gt; &gt; &gt; 80.33&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 0.00<BR>
&gt; &gt; &gt; 1: Error Allreduce, size = 8, sample #0 Process 1: Got invalid buffer:<BR>
&gt; &gt; &gt; Buffer entry: 2.300000<BR>
&gt; &gt; &gt; 0: Error Allreduce, size = 8, sample #0 Process 0: Got invalid buffer:<BR>
&gt; &gt; &gt; Buffer entry: 2.300000<BR>
&gt; &gt; &gt;<BR>
&gt; &gt; &gt;<BR>
&gt; &gt;<BR>
&gt;<BR>
&gt;<BR>
<BR>
</FONT>
</P>

</BODY>
</HTML>