<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 3.2//EN">
<HTML>
<HEAD>
<META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=us-ascii">
<META NAME="Generator" CONTENT="MS Exchange Server version 6.5.7036.0">
<TITLE>RE: [mpich-discuss] IMB 3.1 with TOL 0 crashes on Allreduce</TITLE>
</HEAD>
<BODY>
<!-- Converted from text/plain format -->

<P><FONT SIZE=2>&nbsp;Hi,<BR>
&nbsp; I tried running the IMB 3.1 suite for allreduce on a single machine with upto 8 procs and did not get any errors.<BR>
&nbsp;<BR>
1) Make sure that both node-1 &amp; node-2 have the same data model (data type representation). Please note that MPICH2 currently does not support heterogeneous systems (wrt the data models used by the machines, for eg: you cannot run MPI procs across x86 and x64 machines). If you need to run your program across a heterogeneous system please use MPICH1 instead.<BR>
<BR>
2) Try running the benchmark on a single node/host (mpiexec -n 2 imb-mpi1.exe allreduce) and let us know the results.<BR>
3) Are you able to run other tests in the IMB 3.1 suite ?<BR>
<BR>
Regards,<BR>
Jayesh<BR>
<BR>
-----Original Message-----<BR>
From: owner-mpich-discuss@mcs.anl.gov [<A HREF="mailto:owner-mpich-discuss@mcs.anl.gov">mailto:owner-mpich-discuss@mcs.anl.gov</A>] On Behalf Of Calin Iaru<BR>
Sent: Monday, May 26, 2008 5:50 AM<BR>
To: mpich-discuss@mcs.anl.gov<BR>
Subject: [mpich-discuss] IMB 3.1 with TOL 0 crashes on Allreduce<BR>
<BR>
The problem is that the latest mpich2 in combination with IMB 3.1 generates a data corruption error when running on 2 nodes. IMB was compiled with the CHECK flag and TOL set to 0 inside IMB_declare.h. I am not sure if this is a transport error or a verification error; it could be that the problem lies in the application code.<BR>
<BR>
E:\Program Files\MPICH2\bin&gt;mpiexec.exe -hosts 2 node-1 node-2 \\node-1\e$\imb-mpi1.exe allreduce<BR>
#---------------------------------------------------<BR>
#&nbsp;&nbsp;&nbsp; Intel (R) MPI Benchmark Suite V3.1, MPI-1 part<BR>
#---------------------------------------------------<BR>
# Date&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; : Fri May 23 14:44:12 2008<BR>
# Machine&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; : x86 Family 15 Model 4 Stepping 1, GenuineIntel<BR>
# System&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; : Windows 2003<BR>
# Release&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; : 5.2.3790<BR>
# Version&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; : Service Pack 1<BR>
# MPI Version&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; : 2.0<BR>
# MPI Thread Environment: MPI_THREAD_SINGLE<BR>
<BR>
<BR>
<BR>
# Calling sequence was:<BR>
<BR>
# \\node-1\e$\imb-mpi1.exe allreduce<BR>
<BR>
# Minimum message length in bytes:&nbsp;&nbsp; 0<BR>
# Maximum message length in bytes:&nbsp;&nbsp; 4194304<BR>
#<BR>
# MPI_Datatype&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; :&nbsp;&nbsp; MPI_BYTE<BR>
# MPI_Datatype for reductions&nbsp;&nbsp;&nbsp; :&nbsp;&nbsp; MPI_FLOAT<BR>
# MPI_Op&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; :&nbsp;&nbsp; MPI_SUM<BR>
#<BR>
#<BR>
<BR>
# List of Benchmarks to run:<BR>
<BR>
# Allreduce<BR>
<BR>
#-----------------------------------------------------------------------------<BR>
# Benchmarking Allreduce<BR>
# #processes = 2<BR>
#-----------------------------------------------------------------------------<BR>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; #bytes #repetitions&nbsp; t_min[usec]&nbsp; t_max[usec]&nbsp; t_avg[usec]&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<BR>
defects<BR>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 0&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 1000&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 0.51&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 0.52&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<BR>
0.51&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 0.00<BR>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 4&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 1000&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 80.30&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 80.35&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<BR>
80.33&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 0.00<BR>
1: Error Allreduce, size = 8, sample #0<BR>
Process 1: Got invalid buffer:<BR>
Buffer entry: 2.300000<BR>
0: Error Allreduce, size = 8, sample #0<BR>
Process 0: Got invalid buffer:<BR>
Buffer entry: 2.300000<BR>
<BR>
<BR>
</FONT>
</P>

</BODY>
</HTML>