<div>Thanks Rajeev and Darius,</div><div><br></div><div>I tried to use MPI_IN_PLACE but not getting the desired results. Can you please tell me how to make it working.</div><div><br></div><div>This is the previous code :</div>
<div><br></div><div>         //MPI::COMM_WORLD.Gatherv((const void*)(Data+StartFrom[nStages-1][rank]), Count[rank], MPI::CHAR, (void*)(Data), Count, Displ, MPI::CHAR, 0);
</div><div><br></div><div>And this is how I changed it.</div><div><br></div><div><div> MPI::COMM_WORLD.Gatherv(MPI_IN_PLACE, Count[rank], MPI::CHAR, (void*)(Data), Count, Displ, MPI::CHAR, 0);</div><div><br></div><div>Am I doing it wrong?</div>
<div><br></div><div>Thanks.</div><div><br></div><div>My output after making above changes.</div><div>==============================       </div></div><div>[root@beowulf programs]# mpiexec -n 1 ./output</div><div>Time taken for 16 elements using 1 processors = 2.81334e-05 seconds</div>
<div>[root@beowulf programs]# mpiexec -n 2 ./output</div><div>Fatal error in PMPI_Gatherv: Invalid buffer pointer, error stack:</div><div>PMPI_Gatherv(398): MPI_Gatherv failed(sbuf=MPI_IN_PLACE, scount=64, MPI_CHAR, rbuf=0x879d500, rcnts=0x879d6b8, displs=0x879d6c8, MPI_CHAR, root=0, MPI_COMM_WORLD) failed</div>
<div>PMPI_Gatherv(335): sendbuf cannot be MPI_IN_PLACE</div><div><br></div><div>=====================================================================================</div><div>=   BAD TERMINATION OF ONE OF YOUR APPLICATION PROCESSES</div>
<div>=   EXIT CODE: 256</div><div>=   CLEANING UP REMAINING PROCESSES</div><div>=   YOU CAN IGNORE THE BELOW CLEANUP MESSAGES</div><div>=====================================================================================</div>
<div>*** glibc detected *** mpiexec: double free or corruption (fasttop): 0x094fb038 ***</div><div>======= Backtrace: =========</div><div>/lib/libc.so.6[0x7d4a31]</div><div>mpiexec[0x8077b11]</div><div>mpiexec[0x8053c7f]</div>
<div>mpiexec[0x8053e73]</div><div>mpiexec[0x805592a]</div><div>mpiexec[0x8077186]</div><div>mpiexec[0x807639e]</div><div>mpiexec[0x80518f8]</div><div>mpiexec[0x804ad65]</div><div>/lib/libc.so.6(__libc_start_main+0xe6)[0x77cce6]</div>
<div>mpiexec[0x804a061]</div><div>======= Memory map: ========</div><div>00547000-00548000 r-xp 00000000 00:00 0          [vdso]</div><div>0054b000-0068f000 r-xp 00000000 fd:00 939775     /usr/lib/libxml2.so.2.7.6</div><div>
0068f000-00694000 rw-p 00143000 fd:00 939775     /usr/lib/libxml2.so.2.7.6</div><div>00694000-00695000 rw-p 00000000 00:00 0</div><div>00740000-0075e000 r-xp 00000000 fd:00 2105890    /lib/<a href="http://ld-2.12.so">ld-2.12.so</a></div>
<div>0075e000-0075f000 r--p 0001d000 fd:00 2105890    /lib/<a href="http://ld-2.12.so">ld-2.12.so</a></div><div>0075f000-00760000 rw-p 0001e000 fd:00 2105890    /lib/<a href="http://ld-2.12.so">ld-2.12.so</a></div><div>00766000-008ef000 r-xp 00000000 fd:00 2105891    /lib/<a href="http://libc-2.12.so">libc-2.12.so</a></div>
<div>008ef000-008f0000 ---p 00189000 fd:00 2105891    /lib/<a href="http://libc-2.12.so">libc-2.12.so</a></div><div>008f0000-008f2000 r--p 00189000 fd:00 2105891    /lib/<a href="http://libc-2.12.so">libc-2.12.so</a></div>
<div>008f2000-008f3000 rw-p 0018b000 fd:00 2105891    /lib/<a href="http://libc-2.12.so">libc-2.12.so</a></div><div>008f3000-008f6000 rw-p 00000000 00:00 0</div><div>008f8000-008fb000 r-xp 00000000 fd:00 2105893    /lib/<a href="http://libdl-2.12.so">libdl-2.12.so</a></div>
<div>008fb000-008fc000 r--p 00002000 fd:00 2105893    /lib/<a href="http://libdl-2.12.so">libdl-2.12.so</a></div><div>008fc000-008fd000 rw-p 00003000 fd:00 2105893    /lib/<a href="http://libdl-2.12.so">libdl-2.12.so</a></div>
<div>008ff000-00916000 r-xp 00000000 fd:00 2105900    /lib/<a href="http://libpthread-2.12.so">libpthread-2.12.so</a></div><div>00916000-00917000 r--p 00016000 fd:00 2105900    /lib/<a href="http://libpthread-2.12.so">libpthread-2.12.so</a></div>
<div>00917000-00918000 rw-p 00017000 fd:00 2105900    /lib/<a href="http://libpthread-2.12.so">libpthread-2.12.so</a></div><div>00918000-0091a000 rw-p 00000000 00:00 0</div><div>0091c000-0092e000 r-xp 00000000 fd:00 2105904    /lib/libz.so.1.2.3</div>
<div>0092e000-0092f000 r--p 00011000 fd:00 2105904    /lib/libz.so.1.2.3</div><div>0092f000-00930000 rw-p 00012000 fd:00 2105904    /lib/libz.so.1.2.3</div><div>00932000-0095a000 r-xp 00000000 fd:00 2098429    /lib/<a href="http://libm-2.12.so">libm-2.12.so</a></div>
<div>0095a000-0095b000 r--p 00027000 fd:00 2098429    /lib/<a href="http://libm-2.12.so">libm-2.12.so</a></div><div>0095b000-0095c000 rw-p 00028000 fd:00 2098429    /lib/<a href="http://libm-2.12.so">libm-2.12.so</a></div>
<div>00bb0000-00bcd000 r-xp 00000000 fd:00 2105914    /lib/libgcc_s-4.4.6-20110824.so.1</div><div>00bcd000-00bce000 rw-p 0001d000 fd:00 2105914    /lib/libgcc_s-4.4.6-20110824.so.1</div><div>00c18000-00c24000 r-xp 00000000 fd:00 2098123    /lib/<a href="http://libnss_files-2.12.so">libnss_files-2.12.so</a></div>
<div>00c24000-00c25000 r--p 0000b000 fd:00 2098123    /lib/<a href="http://libnss_files-2.12.so">libnss_files-2.12.so</a></div><div>00c25000-00c26000 rw-p 0000c000 fd:00 2098123    /lib/<a href="http://libnss_files-2.12.so">libnss_files-2.12.so</a></div>
<div>00ce9000-00d00000 r-xp 00000000 fd:00 2105929    /lib/<a href="http://libnsl-2.12.so">libnsl-2.12.so</a></div><div>00d00000-00d01000 r--p 00016000 fd:00 2105929    /lib/<a href="http://libnsl-2.12.so">libnsl-2.12.so</a></div>
<div>00d01000-00d02000 rw-p 00017000 fd:00 2105929    /lib/<a href="http://libnsl-2.12.so">libnsl-2.12.so</a></div><div>00d02000-00d04000 rw-p 00000000 00:00 0</div><div>08048000-080a0000 r-xp 00000000 fd:00 656990     /opt/mpich2-1.4.1p1/bin/bin/mpiexec.hydra</div>
<div>080a0000-080a1000 rw-p 00058000 fd:00 656990     /opt/mpich2-1.4.1p1/bin/bin/mpiexec.hydra</div><div>080a1000-080a3000 rw-p 00000000 00:00 0</div><div>094ee000-0950f000 rw-p 00000000 00:00 0          [heap]</div><div>
b7893000-b7896000 rw-p 00000000 00:00 0</div><div>b78a4000-b78a7000 rw-p 00000000 00:00 0</div><div>bff80000-bff95000 rw-p 00000000 00:00 0          [stack]</div><div>Aborted (core dumped)</div><div>[root@beowulf programs]#</div>
<div><br></div><br><div class="gmail_quote">On Tue, May 22, 2012 at 10:30 PM,  <span dir="ltr"><<a href="mailto:mpich-discuss-request@mcs.anl.gov" target="_blank">mpich-discuss-request@mcs.anl.gov</a>></span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Send mpich-discuss mailing list submissions to<br>
        <a href="mailto:mpich-discuss@mcs.anl.gov">mpich-discuss@mcs.anl.gov</a><br>
<br>
To subscribe or unsubscribe via the World Wide Web, visit<br>
        <a href="https://lists.mcs.anl.gov/mailman/listinfo/mpich-discuss" target="_blank">https://lists.mcs.anl.gov/mailman/listinfo/mpich-discuss</a><br>
or, via email, send a message with subject or body 'help' to<br>
        <a href="mailto:mpich-discuss-request@mcs.anl.gov">mpich-discuss-request@mcs.anl.gov</a><br>
<br>
You can reach the person managing the list at<br>
        <a href="mailto:mpich-discuss-owner@mcs.anl.gov">mpich-discuss-owner@mcs.anl.gov</a><br>
<br>
When replying, please edit your Subject line so it is more specific<br>
than "Re: Contents of mpich-discuss digest..."<br>
<br>
<br>
Today's Topics:<br>
<br>
   1.  Unable to run program parallely on cluster... Its running<br>
      properly on single machine... (Albert Spade)<br>
   2.  Not able to run program parallely on cluster... (Albert Spade)<br>
   3. Re:  Unable to run program parallely on cluster...        Its<br>
      running properly on single machine... (Darius Buntinas)<br>
   4. Re:  Not able to run program parallely on cluster...<br>
      (Rajeev Thakur)<br>
   5.  replication of mpi applications (Thomas Ropars)<br>
<br>
<br>
----------------------------------------------------------------------<br>
<br>
Message: 1<br>
Date: Tue, 22 May 2012 00:12:24 +0530<br>
From: Albert Spade <<a href="mailto:albert.spade@gmail.com">albert.spade@gmail.com</a>><br>
To: <a href="mailto:mpich-discuss@mcs.anl.gov">mpich-discuss@mcs.anl.gov</a><br>
Subject: [mpich-discuss] Unable to run program parallely on cluster...<br>
        Its running properly on single machine...<br>
Message-ID:<br>
        <<a href="mailto:CAP2uaQopgOwaFNfCF49gcnW9REw8CQtWGMgf0U8RyNYStTFw1A@mail.gmail.com">CAP2uaQopgOwaFNfCF49gcnW9REw8CQtWGMgf0U8RyNYStTFw1A@mail.gmail.com</a>><br>
Content-Type: text/plain; charset="iso-8859-1"<br>
<br>
Hi everybody,<br>
<br>
I am using mpich2-1.4.1p1 and mpiexec from hydra-1.5b1<br>
I have a cluster of 5 machines.<br>
When I am trying to run the program for parallel fast fourier transform on<br>
single machine it runs correctly but on a cluster it gives error.<br>
Can you please tell me why its happening.<br>
<br>
Thanks.<br>
<br>
Here is my sample output:<br>
---------------------------------------------------------------------------------------<br>
<br>
[root@beowulf programs]# mpiexec -n 1 ./Radix2<br>
Time taken for 16 elements using 1 processors = 2.7895e-05 seconds<br>
[root@beowulf programs]#<br>
[root@beowulf programs]# mpiexec -n 4 ./Radix2<br>
[mpiexec@beowulf.master] control_cb (./pm/pmiserv/pmiserv_cb.c:197): assert<br>
(!closed) failed<br>
[mpiexec@beowulf.master] HYDT_dmxu_poll_wait_for_event<br>
(./tools/demux/demux_poll.c:77): callback returned error status<br>
[mpiexec@beowulf.master] HYD_pmci_wait_for_completion<br>
(./pm/pmiserv/pmiserv_pmci.c:205): error waiting for event<br>
[mpiexec@beowulf.master] main (./ui/mpich/mpiexec.c:437): process manager<br>
error waiting for completion<br>
[root@beowulf programs]# mpiexec -n 2 ./Radix2<br>
[mpiexec@beowulf.master] control_cb (./pm/pmiserv/pmiserv_cb.c:197): assert<br>
(!closed) failed<br>
[mpiexec@beowulf.master] HYDT_dmxu_poll_wait_for_event<br>
(./tools/demux/demux_poll.c:77): callback returned error status<br>
[mpiexec@beowulf.master] HYD_pmci_wait_for_completion<br>
(./pm/pmiserv/pmiserv_pmci.c:205): error waiting for event<br>
[mpiexec@beowulf.master] main (./ui/mpich/mpiexec.c:437): process manager<br>
error waiting for completion<br>
[root@beowulf programs]# mpiexec -n 4 ./Radix2<br>
[mpiexec@beowulf.master] control_cb (./pm/pmiserv/pmiserv_cb.c:197): assert<br>
(!closed) failed<br>
[mpiexec@beowulf.master] HYDT_dmxu_poll_wait_for_event<br>
(./tools/demux/demux_poll.c:77): callback returned error status<br>
[mpiexec@beowulf.master] HYD_pmci_wait_for_completion<br>
(./pm/pmiserv/pmiserv_pmci.c:205): error waiting for event<br>
[mpiexec@beowulf.master] main (./ui/mpich/mpiexec.c:437): process manager<br>
error waiting for completion<br>
[root@beowulf programs]#<br>
-------------- next part --------------<br>
An HTML attachment was scrubbed...<br>
URL: <<a href="http://lists.mcs.anl.gov/pipermail/mpich-discuss/attachments/20120522/25975b06/attachment-0001.html" target="_blank">http://lists.mcs.anl.gov/pipermail/mpich-discuss/attachments/20120522/25975b06/attachment-0001.html</a>><br>

<br>
------------------------------<br>
<br>
Message: 2<br>
Date: Tue, 22 May 2012 00:59:27 +0530<br>
From: Albert Spade <<a href="mailto:albert.spade@gmail.com">albert.spade@gmail.com</a>><br>
To: <a href="mailto:mpich-discuss@mcs.anl.gov">mpich-discuss@mcs.anl.gov</a><br>
Subject: [mpich-discuss] Not able to run program parallely on<br>
        cluster...<br>
Message-ID:<br>
        <CAP2uaQpiMV0yqHsHfsWpgAQ=_<a href="mailto:K3M_ZGxsCm-S5BPvzbxH%2BZ9zQ@mail.gmail.com">K3M_ZGxsCm-S5BPvzbxH+Z9zQ@mail.gmail.com</a>><br>
Content-Type: text/plain; charset="iso-8859-1"<br>
<br>
This is my new error after making few changes...<br>
Results are quite similar... No succes with cluster...<br>
<br>
Sample run<br>
--------------------------------------------------------<br>
<br>
[root@beowulf testing]# mpiexec -n 1 ./Radix<br>
Time taken for 16 elements using 1 processors = 4.72069e-05 seconds<br>
[root@beowulf testing]# mpiexec -n 2 ./Radix<br>
Fatal error in PMPI_Gatherv: Internal MPI error!, error stack:<br>
PMPI_Gatherv(398).....: MPI_Gatherv failed(sbuf=0x97d0500, scount=64,<br>
MPI_CHAR, rbuf=0x97d0500, rcnts=0x97d06b8, displs=0x97d06c8, MPI_CHAR,<br>
root=0, MPI_COMM_WORLD) failed<br>
MPIR_Gatherv_impl(210):<br>
MPIR_Gatherv(104).....:<br>
MPIR_Localcopy(357)...: memcpy arguments alias each other, dst=0x97d0500<br>
src=0x97d0500 len=64<br>
<br>
=====================================================================================<br>
=   BAD TERMINATION OF ONE OF YOUR APPLICATION PROCESSES<br>
=   EXIT CODE: 256<br>
=   CLEANING UP REMAINING PROCESSES<br>
=   YOU CAN IGNORE THE BELOW CLEANUP MESSAGES<br>
=====================================================================================<br>
[proxy:0:1@beowulf.node1] HYD_pmcd_pmip_control_cmd_cb<br>
(./pm/pmiserv/pmip_cb.c:927): assert (!closed) failed<br>
[proxy:0:1@beowulf.node1] HYDT_dmxu_poll_wait_for_event<br>
(./tools/demux/demux_poll.c:77): callback returned error status<br>
[proxy:0:1@beowulf.node1] main (./pm/pmiserv/pmip.c:221): demux engine<br>
error waiting for event<br>
[mpiexec@beowulf.master] HYDT_bscu_wait_for_completion<br>
(./tools/bootstrap/utils/bscu_wait.c:77): one of the processes terminated<br>
badly; aborting<br>
[mpiexec@beowulf.master] HYDT_bsci_wait_for_completion<br>
(./tools/bootstrap/src/bsci_wait.c:23): launcher returned error waiting for<br>
completion<br>
[mpiexec@beowulf.master] HYD_pmci_wait_for_completion<br>
(./pm/pmiserv/pmiserv_pmci.c:225): launcher returned error waiting for<br>
completion<br>
[mpiexec@beowulf.master] main (./ui/mpich/mpiexec.c:437): process manager<br>
error waiting for completion<br>
[root@beowulf testing]#<br>
-------------- next part --------------<br>
An HTML attachment was scrubbed...<br>
URL: <<a href="http://lists.mcs.anl.gov/pipermail/mpich-discuss/attachments/20120522/7b1db8c0/attachment-0001.html" target="_blank">http://lists.mcs.anl.gov/pipermail/mpich-discuss/attachments/20120522/7b1db8c0/attachment-0001.html</a>><br>

<br>
------------------------------<br>
<br>
Message: 3<br>
Date: Tue, 22 May 2012 03:36:44 +0800<br>
From: Darius Buntinas <<a href="mailto:buntinas@mcs.anl.gov">buntinas@mcs.anl.gov</a>><br>
To: <a href="mailto:mpich-discuss@mcs.anl.gov">mpich-discuss@mcs.anl.gov</a><br>
Subject: Re: [mpich-discuss] Unable to run program parallely on<br>
        cluster...      Its running properly on single machine...<br>
Message-ID: <<a href="mailto:B411B6C1-CB5A-4A1C-AEBB-71680C9AF8C5@mcs.anl.gov">B411B6C1-CB5A-4A1C-AEBB-71680C9AF8C5@mcs.anl.gov</a>><br>
Content-Type: text/plain; charset=us-ascii<br>
<br>
It may be that one of your processes is failing, but also check to make sure every process is calling MPI_Finalize before exiting.<br>
<br>
-d<br>
<br>
On May 22, 2012, at 2:42 AM, Albert Spade wrote:<br>
<br>
> Hi everybody,<br>
><br>
> I am using mpich2-1.4.1p1 and mpiexec from hydra-1.5b1<br>
> I have a cluster of 5 machines.<br>
> When I am trying to run the program for parallel fast fourier transform on single machine it runs correctly but on a cluster it gives error.<br>
> Can you please tell me why its happening.<br>
><br>
> Thanks.<br>
><br>
> Here is my sample output:<br>
> ---------------------------------------------------------------------------------------<br>
><br>
> [root@beowulf programs]# mpiexec -n 1 ./Radix2<br>
> Time taken for 16 elements using 1 processors = 2.7895e-05 seconds<br>
> [root@beowulf programs]#<br>
> [root@beowulf programs]# mpiexec -n 4 ./Radix2<br>
> [mpiexec@beowulf.master] control_cb (./pm/pmiserv/pmiserv_cb.c:197): assert (!closed) failed<br>
> [mpiexec@beowulf.master] HYDT_dmxu_poll_wait_for_event (./tools/demux/demux_poll.c:77): callback returned error status<br>
> [mpiexec@beowulf.master] HYD_pmci_wait_for_completion (./pm/pmiserv/pmiserv_pmci.c:205): error waiting for event<br>
> [mpiexec@beowulf.master] main (./ui/mpich/mpiexec.c:437): process manager error waiting for completion<br>
> [root@beowulf programs]# mpiexec -n 2 ./Radix2<br>
> [mpiexec@beowulf.master] control_cb (./pm/pmiserv/pmiserv_cb.c:197): assert (!closed) failed<br>
> [mpiexec@beowulf.master] HYDT_dmxu_poll_wait_for_event (./tools/demux/demux_poll.c:77): callback returned error status<br>
> [mpiexec@beowulf.master] HYD_pmci_wait_for_completion (./pm/pmiserv/pmiserv_pmci.c:205): error waiting for event<br>
> [mpiexec@beowulf.master] main (./ui/mpich/mpiexec.c:437): process manager error waiting for completion<br>
> [root@beowulf programs]# mpiexec -n 4 ./Radix2<br>
> [mpiexec@beowulf.master] control_cb (./pm/pmiserv/pmiserv_cb.c:197): assert (!closed) failed<br>
> [mpiexec@beowulf.master] HYDT_dmxu_poll_wait_for_event (./tools/demux/demux_poll.c:77): callback returned error status<br>
> [mpiexec@beowulf.master] HYD_pmci_wait_for_completion (./pm/pmiserv/pmiserv_pmci.c:205): error waiting for event<br>
> [mpiexec@beowulf.master] main (./ui/mpich/mpiexec.c:437): process manager error waiting for completion<br>
> [root@beowulf programs]#<br>
> _______________________________________________<br>
> mpich-discuss mailing list     <a href="mailto:mpich-discuss@mcs.anl.gov">mpich-discuss@mcs.anl.gov</a><br>
> To manage subscription options or unsubscribe:<br>
> <a href="https://lists.mcs.anl.gov/mailman/listinfo/mpich-discuss" target="_blank">https://lists.mcs.anl.gov/mailman/listinfo/mpich-discuss</a><br>
<br>
<br>
<br>
------------------------------<br>
<br>
Message: 4<br>
Date: Mon, 21 May 2012 20:14:35 -0500<br>
From: Rajeev Thakur <<a href="mailto:thakur@mcs.anl.gov">thakur@mcs.anl.gov</a>><br>
To: <a href="mailto:mpich-discuss@mcs.anl.gov">mpich-discuss@mcs.anl.gov</a><br>
Subject: Re: [mpich-discuss] Not able to run program parallely on<br>
        cluster...<br>
Message-ID: <<a href="mailto:8C80534E-3611-40D7-BBAF-F66110D25EE1@mcs.anl.gov">8C80534E-3611-40D7-BBAF-F66110D25EE1@mcs.anl.gov</a>><br>
Content-Type: text/plain; charset=us-ascii<br>
<br>
You are passing the same buffer as the sendbuf and recvbuf to MPI_Gatherv, which is not allowed in MPI. Use MPI_IN_PLACE as described in the standard.<br>
<br>
<br>
On May 21, 2012, at 2:29 PM, Albert Spade wrote:<br>
<br>
> This is my new error after making few changes...<br>
> Results are quite similar... No succes with cluster...<br>
><br>
> Sample run<br>
> --------------------------------------------------------<br>
><br>
> [root@beowulf testing]# mpiexec -n 1 ./Radix<br>
> Time taken for 16 elements using 1 processors = 4.72069e-05 seconds<br>
> [root@beowulf testing]# mpiexec -n 2 ./Radix<br>
> Fatal error in PMPI_Gatherv: Internal MPI error!, error stack:<br>
> PMPI_Gatherv(398).....: MPI_Gatherv failed(sbuf=0x97d0500, scount=64, MPI_CHAR, rbuf=0x97d0500, rcnts=0x97d06b8, displs=0x97d06c8, MPI_CHAR, root=0, MPI_COMM_WORLD) failed<br>
> MPIR_Gatherv_impl(210):<br>
> MPIR_Gatherv(104).....:<br>
> MPIR_Localcopy(357)...: memcpy arguments alias each other, dst=0x97d0500 src=0x97d0500 len=64<br>
> =====================================================================================<br>
> =   BAD TERMINATION OF ONE OF YOUR APPLICATION PROCESSES<br>
> =   EXIT CODE: 256<br>
> =   CLEANING UP REMAINING PROCESSES<br>
> =   YOU CAN IGNORE THE BELOW CLEANUP MESSAGES<br>
> =====================================================================================<br>
> [proxy:0:1@beowulf.node1] HYD_pmcd_pmip_control_cmd_cb (./pm/pmiserv/pmip_cb.c:927): assert (!closed) failed<br>
> [proxy:0:1@beowulf.node1] HYDT_dmxu_poll_wait_for_event (./tools/demux/demux_poll.c:77): callback returned error status<br>
> [proxy:0:1@beowulf.node1] main (./pm/pmiserv/pmip.c:221): demux engine error waiting for event<br>
> [mpiexec@beowulf.master] HYDT_bscu_wait_for_completion (./tools/bootstrap/utils/bscu_wait.c:77): one of the processes terminated badly; aborting<br>
> [mpiexec@beowulf.master] HYDT_bsci_wait_for_completion (./tools/bootstrap/src/bsci_wait.c:23): launcher returned error waiting for completion<br>
> [mpiexec@beowulf.master] HYD_pmci_wait_for_completion (./pm/pmiserv/pmiserv_pmci.c:225): launcher returned error waiting for completion<br>
> [mpiexec@beowulf.master] main (./ui/mpich/mpiexec.c:437): process manager error waiting for completion<br>
> [root@beowulf testing]#<br>
><br>
> _______________________________________________<br>
> mpich-discuss mailing list     <a href="mailto:mpich-discuss@mcs.anl.gov">mpich-discuss@mcs.anl.gov</a><br>
> To manage subscription options or unsubscribe:<br>
> <a href="https://lists.mcs.anl.gov/mailman/listinfo/mpich-discuss" target="_blank">https://lists.mcs.anl.gov/mailman/listinfo/mpich-discuss</a><br>
<br>
<br>
<br>
------------------------------<br>
<br>
Message: 5<br>
Date: Tue, 22 May 2012 17:21:09 +0200<br>
From: Thomas Ropars <<a href="mailto:thomas.ropars@epfl.ch">thomas.ropars@epfl.ch</a>><br>
To: <a href="mailto:mpich-discuss@mcs.anl.gov">mpich-discuss@mcs.anl.gov</a><br>
Subject: [mpich-discuss] replication of mpi applications<br>
Message-ID: <<a href="mailto:4FBBAEE5.5070000@epfl.ch">4FBBAEE5.5070000@epfl.ch</a>><br>
Content-Type: text/plain; charset=UTF-8; format=flowed<br>
<br>
Dear all,<br>
<br>
We are starting studying replication for MPI applications. A few papers<br>
have been published in the last months on this topic.<br>
<br>
We were wondering if anybody has already started working on providing<br>
process replication in MPICH ? And if yes, is there some code available ?<br>
<br>
Best regards,<br>
<br>
Thomas Ropars<br>
<br>
<br>
------------------------------<br>
<br>
_______________________________________________<br>
mpich-discuss mailing list<br>
<a href="mailto:mpich-discuss@mcs.anl.gov">mpich-discuss@mcs.anl.gov</a><br>
<a href="https://lists.mcs.anl.gov/mailman/listinfo/mpich-discuss" target="_blank">https://lists.mcs.anl.gov/mailman/listinfo/mpich-discuss</a><br>
<br>
<br>
End of mpich-discuss Digest, Vol 44, Issue 36<br>
*********************************************<br>
</blockquote></div><br>