Arrghhh, some bad compilers use SIGUSR1 to communicate with themselves. I have<br>
had this. Just keep typing 'cont' until the SEGV.<br>
<br>
&nbsp;&nbsp; Matt<br><br><div><span class="gmail_quote">On 5/28/06, <b class="gmail_sendername">Randall Mackie</b> &lt;<a href="mailto:randy@geosystem.us">randy@geosystem.us</a>&gt; wrote:</span><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
Satish,<br><br>Yes, PETSc was compiled in debug mode.<br><br>Since I'm simply storing vectors in a temporary file, could I get<br>around this by using VecView and writing each vector to the<br>same Viewer in binary format, then reading them later?
<br><br>In other words:<br><br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;do loop=1,n<br><br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;call VecView (xvec(:,loop).....)<br><br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;end do<br><br><br><br>then later<br><br><br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;do loop=1,n<br><br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;call VecLoad (xvec(:,loop)....)
<br><br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;end do<br><br><br>Randy<br><br>ps. I'll try your other suggestions as well. However, this code has worked<br>flawlessly until now, with a model much much larger than I've used in the<br>past.<br><br><br><br>
Satish Balay wrote:<br>&gt;&nbsp;&nbsp;- Not sure what SIGUSR1 means in this context.<br>&gt;<br>&gt;&nbsp;&nbsp;- The stack doesn't show any PETSc/user code. Was<br>&gt;&nbsp;&nbsp;this code compiled with debug version of PETSc?<br>&gt;<br>&gt; - it could be that gdb is unable to look at intel compilers stack
<br>&gt;&nbsp;&nbsp; [normally gdb should work]. If thats the case - you could run with<br>&gt;&nbsp;&nbsp; '-start_in_debugger idb']<br>&gt;<br>&gt; - It appears that this breakage is from usercode which calls fortran<br>&gt;&nbsp;&nbsp; I/O [for_write_dir_xmit()]. There is no fortran I/O from PETSc side
<br>&gt;&nbsp;&nbsp; of the code. I think it could still be a bug in the usercode.<br>&gt;<br>&gt; However PETSc does try to detect the availability of<br>&gt; _intel_fast_memcpy() and use it from C side. I don't think this is the<br>
&gt; cause. But to verify you could remove the flag<br>&gt; PETSC_HAVE__INTEL_FAST_MEMCPY from petscconf.h and rebuild libraries.<br>&gt;<br>&gt; Satish<br>&gt;<br>&gt;<br>&gt; On Sun, 28 May 2006, Randall Mackie wrote:<br>
&gt;<br>&gt;&gt; Satish,<br>&gt;&gt;<br>&gt;&gt; Thanks, using method (2) worked. However, when I run a bt in gdb,<br>&gt;&gt; I get the following output:<br>&gt;&gt;<br>&gt;&gt; Loaded symbols for /lib/libnss_files.so.2<br>
&gt;&gt; 0x080b2631 in d3inv_3_3 () at d3inv_3_3.F:2063<br>&gt;&gt; 2063&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;call VecAssemblyBegin(xyz,ierr)<br>&gt;&gt; (gdb) cont<br>&gt;&gt; Continuing.<br>&gt;&gt;<br>&gt;&gt; Program received signal SIGUSR1, User defined signal 1.
<br>&gt;&gt; [Switching to Thread 1082952160 (LWP 23496)]<br>&gt;&gt; 0x088cd729 in _intel_fast_memcpy.J ()<br>&gt;&gt; Current language:&nbsp;&nbsp;auto; currently fortran<br>&gt;&gt; (gdb) bt<br>&gt;&gt; #0&nbsp;&nbsp;0x088cd729 in _intel_fast_memcpy.J ()
<br>&gt;&gt; #1&nbsp;&nbsp;0x40620628 in for_write_dir_xmit ()<br>&gt;&gt;&nbsp;&nbsp;&nbsp;&nbsp;from /opt/intel_fc_80/lib/libifcore.so.5<br>&gt;&gt; #2&nbsp;&nbsp;0xbfffa6b0 in ?? ()<br>&gt;&gt; #3&nbsp;&nbsp;0x00000008 in ?? ()<br>&gt;&gt; #4&nbsp;&nbsp;0xbfff986c in ?? ()<br>&gt;&gt; #5&nbsp;&nbsp;0xbfff9890 in ?? ()
<br>&gt;&gt; #6&nbsp;&nbsp;0x406873a8 in __dtors_list_end () from /opt/intel_fc_80/lib/libifcore.so.5<br>&gt;&gt; #7&nbsp;&nbsp;0x00000002 in ?? ()<br>&gt;&gt; #8&nbsp;&nbsp;0x00000000 in ?? ()<br>&gt;&gt; (gdb)<br>&gt;&gt;<br>&gt;&gt; This all makes me think this is an INTEL compiler bug, and has nothing to
<br>&gt;&gt; do with my code.<br>&gt;&gt;<br>&gt;&gt; Any ideas?<br>&gt;&gt;<br>&gt;&gt; Randy<br>&gt;&gt;<br>&gt;&gt;<br>&gt;&gt; Satish Balay wrote:<br>&gt;&gt;&gt; Looks like you have direct access to all the cluster nodes. Perhaps
<br>&gt;&gt;&gt; you have admin access? You can do either of the following:<br>&gt;&gt;&gt;<br>&gt;&gt;&gt;&nbsp;&nbsp;* if the cluster frontend/compute nodes have common filesystem [i.e<br>&gt;&gt;&gt;&nbsp;&nbsp;all machines can see the same file for ~/.Xauthority] and you can get
<br>&gt;&gt;&gt;&nbsp;&nbsp;'sshd' settings on the frontend changed - then:<br>&gt;&gt;&gt;<br>&gt;&gt;&gt;&nbsp;&nbsp;- configure sshd with 'X11UseLocalhost no' - this way xterms on the<br>&gt;&gt;&gt;&nbsp;&nbsp;&nbsp;&nbsp;compute-nodes can connect to the 'ssh-x11' port on the frontend&nbsp;&nbsp;- run
<br>&gt;&gt;&gt; the PETSc app with: '-display frontend:ssh-x11-port'<br>&gt;&gt;&gt;<br>&gt;&gt;&gt;&nbsp;&nbsp;* However if the above is not possible - but you can ssh directly to<br>&gt;&gt;&gt;&nbsp;&nbsp; all the the compute nodes [perhaps from the frontend] then you can
<br>&gt;&gt;&gt;&nbsp;&nbsp; cascade x11 forwarding with:<br>&gt;&gt;&gt;<br>&gt;&gt;&gt;&nbsp;&nbsp;- ssh from desktop to frontend<br>&gt;&gt;&gt;&nbsp;&nbsp;- ssh from frontend to node-9 [if you know which machine is node9<br>&gt;&gt;&gt;&nbsp;&nbsp;&nbsp;&nbsp;from the machine file.]
<br>&gt;&gt;&gt;&nbsp;&nbsp;- If you don't know which one is the node-9 - then ssh from frontend<br>&gt;&gt;&gt;&nbsp;&nbsp;&nbsp;&nbsp;to all the nodes :). Mostlikely all nodes will get a display<br>&gt;&gt;&gt; 'localhost:l0.0'<br>&gt;&gt;&gt;&nbsp;&nbsp;- so now you can run the executable with the option
<br>&gt;&gt;&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;-display localhost:10.0<br>&gt;&gt;&gt;<br>&gt;&gt;&gt; The other alternative that might work [for interactive runs] is:<br>&gt;&gt;&gt;<br>&gt;&gt;&gt; -start_in_debugger noxterm -debugger_nodes 9
<br>&gt;&gt;&gt;<br>&gt;&gt;&gt; Satish<br>&gt;&gt;&gt;<br>&gt;&gt;&gt; On Sat, 27 May 2006, Randall Mackie wrote:<br>&gt;&gt;&gt;<br>&gt;&gt;&gt;&gt; I can't seem to get the debugger to pop up on my screen.<br>&gt;&gt;&gt;&gt;
<br>&gt;&gt;&gt;&gt; When I'm logged into the cluster I'm working on, I can<br>&gt;&gt;&gt;&gt; type xterm &amp;, and an xterm pops up on my display. So I know<br>&gt;&gt;&gt;&gt; I can get something from the remote cluster.
<br>&gt;&gt;&gt;&gt;<br>&gt;&gt;&gt;&gt; Now, when I try this using PETSc, I'm getting the following error<br>&gt;&gt;&gt;&gt; message, for example:<br>&gt;&gt;&gt;&gt;<br>&gt;&gt;&gt;&gt; ------------------------------------------------------------------------
<br>&gt;&gt;&gt;&gt; [17]PETSC ERROR: PETSC: Attaching gdb to<br>&gt;&gt;&gt;&gt; /home/randy/d3inv/PETSC_V3.3/d3inv_3_3_petsc of pid 3628 on display<br>&gt;&gt;&gt;&gt; <a href="http://24.5.142.138:0">24.5.142.138:0</a>.0 on machine 
compute-0-23.local<br>&gt;&gt;&gt;&gt; ------------------------------------------------------------------------<br>&gt;&gt;&gt;&gt;<br>&gt;&gt;&gt;&gt; I'm using this in my command file:<br>&gt;&gt;&gt;&gt;<br>&gt;&gt;&gt;&gt; source ~/.bashrc
<br>&gt;&gt;&gt;&gt; time /opt/mpich/intel/bin/mpirun -np 20 -nolocal -machinefile machines \<br>&gt;&gt;&gt;&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;/home/randy/d3inv/PETSC_V3.3/d3inv_3_3_petsc \<br>&gt;&gt;&gt;&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;-start_in_debugger \<br>
&gt;&gt;&gt;&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;-debugger_node 1 \<br>&gt;&gt;&gt;&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;-display <a href="http://24.5.142.138:0">24.5.142.138:0</a>.0 \<br>&gt;&gt;&gt;&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;-em_ksp_type bcgs \<br>&gt;&gt;&gt;&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;-em_sub_pc_type ilu \
<br>&gt;&gt;&gt;&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;-em_sub_pc_factor_levels 8 \<br>&gt;&gt;&gt;&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;-em_sub_pc_factor_fill 4 \<br>&gt;&gt;&gt;&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;-em_sub_pc_factor_reuse_ordering \<br>&gt;&gt;&gt;&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;-em_sub_pc_factor_reuse_fill \
<br>&gt;&gt;&gt;&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;-em_sub_pc_factor_mat_ordering_type rcm \<br>&gt;&gt;&gt;&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;-divh_ksp_type cr \<br>&gt;&gt;&gt;&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;-divh_sub_pc_type icc \<br>&gt;&gt;&gt;&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;-ppc_sub_pc_type ilu \
<br>&gt;&gt;&gt;&gt; &lt;&lt; EOF<br>&gt;&gt;<br>&gt;<br><br>--<br>Randall Mackie<br>GSY-USA, Inc.<br>PMB# 643<br>2261 Market St.,<br>San Francisco, CA 94114-1600<br>Tel (415) 469-8649<br>Fax (415) 469-5044<br><br>California Registered Geophysicist
<br>License No. GP 1034<br><br></blockquote></div><br><br clear="all"><br>-- <br>&quot;Failure has a thousand explanations. Success doesn't need one&quot; -- Sir Alec Guiness