<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 3.2//EN">
<HTML>
<HEAD>
<META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=iso-8859-1">
<META NAME="Generator" CONTENT="MS Exchange Server version 6.5.7654.12">
<TITLE>RE: [mpich-discuss] Problems with Barriers on MPICH2-1.3.2p1 on Windows        XP and Windows Server 2008</TITLE>
</HEAD>
<BODY>
<!-- Converted from text/plain format -->

<P><FONT SIZE=2>Hi Jayesh,<BR>
<BR>
Firewalls are disabled on the machines. The machines are actually running on VMware ESX3.5 in a intel xeon server. They are physically housed together but logically separated by vmware. No problems with pinging the servers.<BR>
<BR>
Regards,<BR>
Zuwei<BR>
<BR>
<BR>
<BR>
-----Original Message-----<BR>
From: Jayesh Krishna [<A HREF="mailto:jayesh@mcs.anl.gov">mailto:jayesh@mcs.anl.gov</A>]<BR>
Sent: Fri 2/25/2011 10:09 PM<BR>
To: Li Zuwei<BR>
Cc: mpich-discuss@mcs.anl.gov<BR>
Subject: Re: [mpich-discuss] Problems with Barriers on MPICH2-1.3.2p1 on Windows&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; XP and Windows Server 2008<BR>
<BR>
Hi,<BR>
&nbsp;This could be a firewall issue. Did you turn off Windows firewall on both the machines ?<BR>
<BR>
Regards,<BR>
jayesh<BR>
<BR>
----- Original Message -----<BR>
From: &quot;Li Zuwei&quot; &lt;lzuwei@dso.org.sg&gt;<BR>
To: &quot;Jayesh Krishna&quot; &lt;jayesh@mcs.anl.gov&gt;<BR>
Sent: Thursday, February 24, 2011 8:45:54 PM<BR>
Subject: RE: [mpich-discuss] Problems with Barriers on MPICH2-1.3.2p1 on Windows&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; XP and Windows Server 2008<BR>
<BR>
<BR>
<BR>
Hi,<BR>
<BR>
Thanks for the response, a similar problem occurred for cpi.exe, this time round it lies in MPI_Bcast, with same network errors. What puzzles me is the fact that I could run the program remotely on the other nodes through the<BR>
&gt;mpiexec -host remote_node -n 4 cpi.exe<BR>
<BR>
On a program that uses purely Send and Recv commands, I didn't have problems running on multiple nodes using the machinefile.<BR>
<BR>
In the case of network error, are there any settings that I have to take note for windows? Such as DCOM settings, remote access etc. The users for the nodes are all administrators, so I presume there won't be any problems with remote file access and launch of programs.<BR>
<BR>
Regards,<BR>
Zuwei<BR>
<BR>
<BR>
<BR>
-----Original Message-----<BR>
From: Jayesh Krishna [ <A HREF="mailto:jayesh@mcs.anl.gov">mailto:jayesh@mcs.anl.gov</A> ]<BR>
Sent: Fri 2/25/2011 12:59 AM<BR>
To: mpich-discuss@mcs.anl.gov<BR>
Cc: Li Zuwei<BR>
Subject: Re: [mpich-discuss] Problems with Barriers on MPICH2-1.3.2p1 on Windows XP and Windows Server 2008<BR>
<BR>
Hi,<BR>
>From the error message it looks like a network connectivity issue (not related to MPI_Barrier()). Can you send us a test program that fails ?<BR>
Can you run cpi.exe (c:\program files\MPICH2\examples\cpi.exe) across the nodes ?<BR>
<BR>
Regards,<BR>
Jayesh<BR>
<BR>
----- Original Message -----<BR>
From: &quot;Li Zuwei&quot; &lt;lzuwei@dso.org.sg&gt;<BR>
To: mpich-discuss@mcs.anl.gov<BR>
Sent: Thursday, February 24, 2011 2:00:53 AM<BR>
Subject: [mpich-discuss] Problems with Barriers on MPICH2-1.3.2p1 on Windows XP and Windows Server 2008<BR>
<BR>
<BR>
Problems with Barriers on MPICH2-1.3.2p1 on Windows XP and Windows Server 2008<BR>
<BR>
Hi users,<BR>
<BR>
I have some issues with MPI_Barrier() on the MPICH2-1.3.2p1 build on Windows.<BR>
On a single node, the operation works flawlessly, however when the program is scheduled to run on multiple nodes I get the following errors.<BR>
<BR>
mf.txt<BR>
node0:1<BR>
node1:1<BR>
<BR>
&gt;mpiexec -machinefile mf.txt -n 2 mpi_test.exe<BR>
<BR>
Fatal error in PMPI_Barrier: Other MPI error, error stack:<BR>
PMPI_Barrier(425)...........................: MPI_Barrier(MPI_COMM_WORLD) failed<BR>
MPIR_Barrier_impl(331)......................: Failure during collective<BR>
MPIR_Barrier_impl(313)......................:<BR>
MPIR_Barrier_intra(83)......................:<BR>
MPIC_Sendrecv(192)..........................:<BR>
MPIC_Wait(540)..............................:<BR>
MPIDI_CH3I_Progress(353)....................:<BR>
MPID_nem_mpich2_blocking_recv(905)..........:<BR>
MPID_nem_newtcp_module_poll(37).............:<BR>
MPID_nem_newtcp_module_connpoll(2655).......:<BR>
gen_cnting_fail_handler(1738)...............: connect failed - the network location connot be reached. For information about network troubleshooting, see Windows Help.<BR>
<BR>
(errno 1231)<BR>
<BR>
job aborted:<BR>
rank: node: exit code[: error message]<BR>
0: node0: 123<BR>
1: node1: 1: process 1 exited without calling finalize<BR>
<BR>
Additional Notes:<BR>
When running against code without any MPI_Barrier calls, no problems with were encountered (ie: on multiple nodes send and recv). Based on that I presume my settings were correct and the problem might lie in the barrier implementation on windows.<BR>
<BR>
Any help to identify the problem here would be great.<BR>
<BR>
<BR>
Regards,<BR>
Zuwei<BR>
<BR>
<BR>
_______________________________________________<BR>
mpich-discuss mailing list<BR>
mpich-discuss@mcs.anl.gov<BR>
<A HREF="https://lists.mcs.anl.gov/mailman/listinfo/mpich-discuss">https://lists.mcs.anl.gov/mailman/listinfo/mpich-discuss</A><BR>
<BR>
</FONT>
</P>

</BODY>
</HTML>