<div>Hi,</div>
<div> </div>
<div>  Kindly ignore last note (it seemed to run OK on RHEL4 due to some incorrect 3rdparty library config </div>
<div>settings in RHEL4). Actually, the similar error behavior is also observed on RHEL4 actually (just as in </div>
<div>RHEL5). Apologies..</div>
<div> </div>
<div>--Sunil.</div>
<div><br><br> </div>
<div class="gmail_quote">On Mon, Jan 10, 2011 at 2:35 PM, Sunil Thomas <span dir="ltr">&lt;<a href="mailto:sgthomas27@gmail.com">sgthomas27@gmail.com</a>&gt;</span> wrote:<br>
<blockquote class="gmail_quote" style="PADDING-LEFT: 1ex; MARGIN: 0px 0px 0px 0.8ex; BORDER-LEFT: #ccc 1px solid">
<div>Hi,</div>
<div> </div>
<div>  Yet another followup. When I build and install using the exact same configure options I have been </div>
<div>using on RHEL4 (gcc version 3.4.6), the error is no longer seen. Everythign is running fine there.  <br></div>
<div>   Appreciate if anybody lets me know if this info is of any help in identifying potential fix...I am meanwhile </div>
<div>trying to isolate the MPI usage of the failing HYPRE function on RHEL5 into a simple example and will </div>
<div>report back..</div>
<div> </div>
<div>Thanks!</div>
<div>--Sunil.</div>
<div>
<div></div>
<div class="h5">
<div><br> </div>
<div class="gmail_quote">On Mon, Jan 10, 2011 at 1:37 PM, Darius Buntinas <span dir="ltr">&lt;<a href="mailto:buntinas@mcs.anl.gov" target="_blank">buntinas@mcs.anl.gov</a>&gt;</span> wrote:<br>
<blockquote class="gmail_quote" style="PADDING-LEFT: 1ex; MARGIN: 0px 0px 0px 0.8ex; BORDER-LEFT: #ccc 1px solid"><br>It&#39;s doubtful that any of these are causing the segfault you&#39;re seeing.<br><br>The first two mean that there are some resources that weren&#39;t freed when the test exited.<br>
<br>The second one is related to sending large (4-8GB messages).  I think the linux kernel has a bug in the tcp stack when sending large messages with iovecs.  The bug results in a dropped connection, which terminates the program with an error message, rather than a segfault.<br>
<font color="#888888"><br>-d<br></font>
<div>
<div></div>
<div><br>On Jan 10, 2011, at 3:25 PM, Sunil Thomas wrote:<br><br>&gt; Hi,<br>&gt;<br>&gt;    Thanks for the response. I am still not yet sure about the error being due to HYPRE. I will try to<br>&gt; isolate the behavior in the failing function to a smaller example and report back on this. It might still<br>
&gt; be mpich2-1.3.1.<br>&gt;<br>&gt;    But just to follow-up, I ran the test suite after doing a fresh install (this time I had built with-device=<br>&gt; ch3:sock although the end result with my application is the same as the with default communication<br>
&gt; device..I also included --enable-g and --enable-debuginfo). The test suite result is as follows (most the<br>&gt; tests go through fine..but some point to point communication tests appear to fail, it seems):<br>&gt;<br>
&gt; Looking in ./testlist<br>&gt; Processing directory attr<br>&gt; Looking in ./attr/testlist<br>&gt; Processing directory coll<br>&gt; Looking in ./coll/testlist<br>&gt; Processing directory comm<br>&gt; Looking in ./comm/testlist<br>
&gt; Processing directory datatype<br>&gt; Looking in ./datatype/testlist<br>&gt; Processing directory errhan<br>&gt; Looking in ./errhan/testlist<br>&gt; Processing directory group<br>&gt; Looking in ./group/testlist<br>
&gt; Processing directory info<br>&gt; Looking in ./info/testlist<br>&gt; Processing directory init<br>&gt; Looking in ./init/testlist<br>&gt; Processing directory pt2pt<br>&gt; Looking in ./pt2pt/testlist<br>&gt; Unexpected output in scancel: In direct memory block for handle type REQUEST, 3 handles are still allocated<br>
&gt; Unexpected output in scancel: In direct memory block for handle type REQUEST, 4 handles are still allocated<br>&gt; Unexpected output in scancel: In direct memory block for handle type COMM, 2 handles are still allocated<br>
&gt; Unexpected output in scancel: [0] 24 at [0x000000000e443158], rty/mpi/mpich2-1.3.1/src/mpid/ch3/src/mpid_vc.c[79]<br>&gt; Unexpected output in scancel: [0] 32 at [0x000000000e443088], rty/mpi/mpich2-1.3.1/src/mpid/ch3/src/mpid_vc.c[79]<br>
&gt; Unexpected output in scancel: [0] 8 at [0x000000000e441a08], /mpi/mpich2-1.3.1/src/util/procmap/local_proc.c[91]<br>&gt; Unexpected output in scancel: [0] 8 at [0x000000000e441958], /mpi/mpich2-1.3.1/src/util/procmap/local_proc.c[90]<br>
&gt; Unexpected output in scancel: [0] 32 at [0x000000000e442268], rty/mpi/mpich2-1.3.1/src/mpid/ch3/src/mpid_vc.c[79]<br>&gt; Unexpected output in pscancel: In direct memory block for handle type REQUEST, 4 handles are still allocated<br>
&gt; Unexpected output in pscancel: In direct memory block for handle type COMM, 2 handles are still allocated<br>&gt; Unexpected output in pscancel: In direct memory block for handle type REQUEST, 3 handles are still allocated<br>
&gt; Unexpected output in pscancel: [0] 24 at [0x000000000bec1158], rty/mpi/mpich2-1.3.1/src/mpid/ch3/src/mpid_vc.c[79]<br>&gt; Unexpected output in pscancel: [0] 32 at [0x000000000bec1088], rty/mpi/mpich2-1.3.1/src/mpid/ch3/src/mpid_vc.c[79]<br>
&gt; Unexpected output in pscancel: [0] 8 at [0x000000000bebfa08], /mpi/mpich2-1.3.1/src/util/procmap/local_proc.c[91]<br>&gt; Unexpected output in pscancel: [0] 8 at [0x000000000bebf958], /mpi/mpich2-1.3.1/src/util/procmap/local_proc.c[90]<br>
&gt; Unexpected output in pscancel: [0] 32 at [0x000000000bec0268], rty/mpi/mpich2-1.3.1/src/mpid/ch3/src/mpid_vc.c[79]<br>&gt; Unexpected output in cancelrecv: In direct memory block for handle type REQUEST, 1 handles are still allocated<br>
&gt; Unexpected output in large_message: Fatal error in MPI_Recv: Other MPI error, error stack:<br>&gt; Unexpected output in large_message: MPI_Recv(186).............................: MPI_Recv(buf=0x2ae606fa8010, count=270000000, MPI_LONG_LONG_INT, src=0, tag=0, MPI_COMM_WORLD, status=0x7fffa45959a0) failed<br>
&gt; Unexpected output in large_message: MPIDI_CH3i_Progress_wait(213).............: an error occurred while handling an event returned by MPIDU_Sock_Wait()<br>&gt; Unexpected output in large_message: MPIDI_CH3I_Progress_handle_sock_event(456):<br>
&gt; Unexpected output in large_message: adjust_iov(828)...........................: ch3|sock|immedread 0x2ae60695bd40 0x4169698 0x4164318<br>&gt; Unexpected output in large_message: MPIDU_Sock_readv(426).....................: connection closed by peer (set=0,sock=1)<br>
&gt; Unexpected output in large_message: [cli_1]: aborting job:<br>&gt; Unexpected output in large_message: Fatal error in MPI_Recv: Other MPI error, error stack:<br>&gt; Unexpected output in large_message: MPI_Recv(186).............................: MPI_Recv(buf=0x2ae606fa8010, count=270000000, MPI_LONG_LONG_INT, src=0, tag=0, MPI_COMM_WORLD, status=0x7fffa45959a0) failed<br>
&gt; Unexpected output in large_message: MPIDI_CH3i_Progress_wait(213).............: an error occurred while handling an event returned by MPIDU_Sock_Wait()<br>&gt; Unexpected output in large_message: MPIDI_CH3I_Progress_handle_sock_event(456):<br>
&gt; Unexpected output in large_message: adjust_iov(828)...........................: ch3|sock|immedread 0x2ae60695bd40 0x4169698 0x4164318<br>&gt; Unexpected output in large_message: MPIDU_Sock_readv(426).....................: connection closed by peer (set=0,sock=1)<br>
&gt; Unexpected output in large_message: APPLICATION TERMINATED WITH THE EXIT STRING: Hangup (signal 1)<br>&gt; Program large_message exited without No Errors<br>&gt; Looking in ./rma/testlist<br>&gt; Processing directory spawn<br>
&gt; Looking in ./spawn/testlist<br>&gt; Processing directory topo<br>&gt; Looking in ./topo/testlist<br>&gt; Processing directory perf<br>&gt; Looking in ./perf/testlist<br>&gt; Processing directory io<br>&gt; Looking in ./io/testlist<br>
&gt; Processing directory f77<br>&gt; Looking in ./f77/testlist<br>&gt; Processing directory attr<br>&gt; Looking in ./f77/attr/testlist<br>&gt; Processing directory coll<br>&gt; Looking in ./f77/coll/testlist<br>&gt; Processing directory datatype<br>
&gt; Looking in ./f77/datatype/testlist<br>&gt; Processing directory pt2pt<br>&gt; Looking in ./f77/pt2pt/testlist<br>&gt; Processing directory info<br>&gt; Looking in ./f77/info/testlist<br>&gt; ..<br>&gt; .. (all remaining tests pass)<br>
&gt;<br>&gt; Any ideas what may be causing this? It clearly seems like this issue could be related to the one I<br>&gt; have in my application since the HYPRE functions are using MPI_Recv&#39;s... Greatly appreciate any<br>
&gt; thoughts on why pt2pt test is failing and how to resolve? Kindly note that I am testing this on<br>&gt; RHEL5 gcc version 4.1.2<br>&gt;<br>&gt; Thanks!<br>&gt; --Sunil.<br>&gt;<br>&gt;<br>&gt; On Mon, Jan 10, 2011 at 12:55 PM, Sunil Thomas &lt;<a href="mailto:sgthomas27@gmail.com" target="_blank">sgthomas27@gmail.com</a>&gt; wrote:<br>
&gt; Thanks for the response. Moving forward, upon further debugging of the example code resulting in the<br>&gt; &quot;APPLICATION TERMINATED WITH THE EXIT STRING: Hangup (signal 1)&quot; error (using gdb and by<br>&gt; attaching to each process), here is what I got so far:<br>
&gt;<br>&gt; --------------------------<br>&gt; 0x0000000000401ad0 in main (argc=1, argv=0x7fff12a68028) at ex5.c:57<br>&gt; 57         while (DebugWait);<br>&gt; (gdb) r<br>&gt; The program being debugged has been started already.<br>
&gt; Start it from the beginning? (y or n) n<br>&gt; Program not restarted.<br>&gt; (gdb) set DebugWait = 0<br>&gt; (gdb) s<br>&gt; 61         n = 33;<br>&gt; (gdb) n<br>&gt; 62         solver_id = 0;<br>&gt; (gdb) c<br>&gt; Continuing.<br>
&gt; Program received signal SIGSEGV, Segmentation fault.<br>&gt; 0x00002b71982477e0 in hypre_MatvecCommPkgCreate_core () from /data/rpe/sypb/devl/3rdparty/hypre-2.4.0b/lib/libHYPRE.so<br>&gt; (gdb) bt<br>&gt; #0  0x00002b71982477e0 in hypre_MatvecCommPkgCreate_core () from /data/rpe/sypb/devl/3rdparty/hypre-2.4.0b/lib/libHYPRE.so<br>
&gt; #1  0x00002b7198247d8c in hypre_MatvecCommPkgCreate () from /data/rpe/sypb/devl/3rdparty/hypre-2.4.0b/lib/libHYPRE.so<br>&gt; #2  0x00002b7198234361 in hypre_BoomerAMGCreateS () from /data/rpe/sypb/devl/3rdparty/hypre-2.4.0b/lib/libHYPRE.so<br>
&gt; #3  0x00002b71981f10f5 in hypre_BoomerAMGSetup () from /data/rpe/sypb/devl/3rdparty/hypre-2.4.0b/lib/libHYPRE.so<br>&gt; #4  0x0000000000402421 in main (argc=1, argv=0x7fff12a68028) at ex5.c:319<br>&gt; (gdb) q<br>&gt; --------------------------<br>
&gt; 0x0000000000401ad0 in main (argc=1, argv=0x7fff4b539af8) at ex5.c:57<br>&gt; 57         while (DebugWait);<br>&gt; (gdb) set DebugWait = 0<br>&gt; (gdb) s<br>&gt; 61         n = 33;<br>&gt; (gdb) n<br>&gt; 62         solver_id = 0;<br>
&gt; (gdb) c<br>&gt; Continuing.<br>&gt; Program received signal SIGSEGV, Segmentation fault.<br>&gt; 0x00002b8a5f727f07 in hypre_BoomerAMGCoarsen () from /data/rpe/sypb/devl/3rdparty/hypre-2.4.0b/lib/libHYPRE.so<br>&gt; (gdb) bt<br>
&gt; #0  0x00002b8a5f727f07 in hypre_BoomerAMGCoarsen () from /data/rpe/sypb/devl/3rdparty/hypre-2.4.0b/lib/libHYPRE.so<br>&gt; #1  0x00002b8a5f72ab51 in hypre_BoomerAMGCoarsenFalgout () from /data/rpe/sypb/devl/3rdparty/hypre-2.4.0b/lib/libHYPRE.so<br>
&gt; #2  0x00002b8a5f721cdf in hypre_BoomerAMGSetup () from /data/rpe/sypb/devl/3rdparty/hypre-2.4.0b/lib/libHYPRE.so<br>&gt; #3  0x0000000000402421 in main (argc=1, argv=0x7fff4b539af8) at ex5.c:319<br>&gt; (gdb) q<br>&gt; ------------------------<br>
&gt;<br>&gt;<br>&gt; Before digging any further in the 3rd party library HYPRE, does this give any useful info as to where the problem lies, in<br>&gt; terms of ruling out say error with mpich2-1.3.1, etc? It seems like the problem is in the 3rd party library HYPRE (I am<br>
&gt; using version 2.4.0b), but I am not 100% sure.<br>&gt;<br>&gt; Thanks again.<br>&gt; --Sunil.<br>&gt;<br>&gt;<br>&gt;<br>&gt; On Sun, Jan 9, 2011 at 6:22 PM, Pavan Balaji &lt;<a href="mailto:balaji@mcs.anl.gov" target="_blank">balaji@mcs.anl.gov</a>&gt; wrote:<br>
&gt;<br>&gt; Please keep mpich-discuss cc&#39;ed.<br>&gt;<br>&gt; ----- Original Message -----<br>&gt; &gt; Thanks Pavan!<br>&gt; &gt;<br>&gt; &gt; No I am not. I was simply searching for the error message I got. The<br>&gt; &gt; fact<br>
&gt; &gt; that the error is seen (whether using RMA or not) suggests the problem<br>&gt; &gt; could<br>&gt; &gt; still be with mpich2-1.3.1.<br>&gt;<br>&gt; If the application terminates (for any reason), the process manager will display this error string. These two could be (and most likely are) completely unrelated problems.<br>
&gt;<br>&gt;  -- Pavan<br>&gt;<br>&gt;<br></div></div>
<div>
<div></div>
<div>&gt; _______________________________________________<br>&gt; mpich-discuss mailing list<br>&gt; <a href="mailto:mpich-discuss@mcs.anl.gov" target="_blank">mpich-discuss@mcs.anl.gov</a><br>&gt; <a href="https://lists.mcs.anl.gov/mailman/listinfo/mpich-discuss" target="_blank">https://lists.mcs.anl.gov/mailman/listinfo/mpich-discuss</a><br>
<br>_______________________________________________<br>mpich-discuss mailing list<br><a href="mailto:mpich-discuss@mcs.anl.gov" target="_blank">mpich-discuss@mcs.anl.gov</a><br><a href="https://lists.mcs.anl.gov/mailman/listinfo/mpich-discuss" target="_blank">https://lists.mcs.anl.gov/mailman/listinfo/mpich-discuss</a><br>
</div></div></blockquote></div><br></div></div></blockquote></div><br>