<html xmlns:v="urn:schemas-microsoft-com:vml" xmlns:o="urn:schemas-microsoft-com:office:office" xmlns:w="urn:schemas-microsoft-com:office:word" xmlns:m="http://schemas.microsoft.com/office/2004/12/omml" xmlns="http://www.w3.org/TR/REC-html40"><head><meta http-equiv=Content-Type content="text/html; charset=us-ascii"><meta name=Generator content="Microsoft Word 12 (filtered medium)"><style><!--
/* Font Definitions */
@font-face
        {font-family:"Cambria Math";
        panose-1:2 4 5 3 5 4 6 3 2 4;}
@font-face
        {font-family:Calibri;
        panose-1:2 15 5 2 2 2 4 3 2 4;}
@font-face
        {font-family:Verdana;
        panose-1:2 11 6 4 3 5 4 4 2 4;}
/* Style Definitions */
p.MsoNormal, li.MsoNormal, div.MsoNormal
        {margin:0in;
        margin-bottom:.0001pt;
        font-size:11.0pt;
        font-family:"Calibri","sans-serif";}
a:link, span.MsoHyperlink
        {mso-style-priority:99;
        color:blue;
        text-decoration:underline;}
a:visited, span.MsoHyperlinkFollowed
        {mso-style-priority:99;
        color:purple;
        text-decoration:underline;}
span.EmailStyle17
        {mso-style-type:personal-compose;
        font-family:"Calibri","sans-serif";
        color:windowtext;}
.MsoChpDefault
        {mso-style-type:export-only;}
@page WordSection1
        {size:8.5in 11.0in;
        margin:1.0in 1.0in 1.0in 1.0in;}
div.WordSection1
        {page:WordSection1;}
--></style><!--[if gte mso 9]><xml>
<o:shapedefaults v:ext="edit" spidmax="1026" />
</xml><![endif]--><!--[if gte mso 9]><xml>
<o:shapelayout v:ext="edit">
<o:idmap v:ext="edit" data="1" />
</o:shapelayout></xml><![endif]--></head><body lang=EN-US link=blue vlink=purple><div class=WordSection1><p class=MsoNormal>I have an mpich2 error that I have run into a wall trying to debug.&nbsp; When I run on a given node, either the headnode, or a slave node, as long as the machinefile only has that same node in the file (i.e. ssh to &#8220;c302&#8221; and have the machines file only have &#8220;c302&#8221; listed), I get no problems at all and the code runs to completion just fine.&nbsp; If I try to run across any nodes though, I get a crashing error that is given below.&nbsp; I think the error may even be some architectural setup, but I&#8217;m fairly stuck regarding continued debugging.&nbsp; I ran the code using the &#8220;ddd&#8221; debugger through and it crashes on the first line of the program on the cross node (it&#8217;s a fortran program, and crashes on the first line simply naming the program &#8230; &#8216;program laplace&#8217;), and crashes on the first &#8220;step&#8221; in the ddd debugger in the window pertaining to the instance running on the headnode, which spawned the mpiexec job, saying:<o:p></o:p></p><p class=MsoNormalCxSpMiddle style='mso-margin-top-alt:auto;mso-margin-bottom-alt:auto'><span style='font-family:"Verdana","sans-serif";color:#1F497D;background:white'><o:p>&nbsp;</o:p></span></p><p class=MsoNormalCxSpMiddle style='mso-margin-top-alt:auto;mso-margin-bottom-alt:auto'><span style='font-family:"Verdana","sans-serif";color:#1F497D;background:white'>Program received signal SIGINT, Interrupt.</span><span style='font-size:9.0pt;font-family:"Verdana","sans-serif";color:black;background:white'><o:p></o:p></span></p><p class=MsoNormalCxSpMiddle style='mso-margin-top-alt:auto;mso-margin-bottom-alt:auto'><span style='font-family:"Verdana","sans-serif";color:#1F497D;background:white'>0x00002aaaaaee4920 in __read_nocancel () from /lib64/libpthread.so.0</span><span style='font-size:9.0pt;font-family:"Verdana","sans-serif";color:black;background:white'><o:p></o:p></span></p><p class=MsoNormalCxSpMiddle style='mso-margin-top-alt:auto;mso-margin-bottom-alt:auto'><span style='font-family:"Verdana","sans-serif";color:#1F497D;background:white'>(gdb) step</span><span style='font-size:9.0pt;font-family:"Verdana","sans-serif";color:black;background:white'><o:p></o:p></span></p><p class=MsoNormal><o:p>&nbsp;</o:p></p><p class=MsoNormal>I&#8217;ve pretty well exhausted my troubleshooting on this, and any help would be greatly appreciated.&nbsp; We&#8217;re running Ubuntu 10.04, Lucid Lynx, running mpich2-1.4.1p1.&nbsp; Feel free to ask any questions or offer some troubleshooting tips.&nbsp; Thanks,<o:p></o:p></p><p class=MsoNormal><o:p>&nbsp;</o:p></p><p class=MsoNormal>~Jack<o:p></o:p></p><p class=MsoNormal><o:p>&nbsp;</o:p></p><p class=MsoNormal>Error when running code:<o:p></o:p></p><p class=MsoNormal><o:p>&nbsp;</o:p></p><p class=MsoNormal>galloway@tebow:~/Flow3D/hybrid-test$ mpiexec -machinefile machines -np 2 -print-all-exitcodes ./mpich_debug_exec <o:p></o:p></p><p class=MsoNormal><o:p>&nbsp;</o:p></p><p class=MsoNormal>=====================================================================================<o:p></o:p></p><p class=MsoNormal>=&nbsp;&nbsp; BAD TERMINATION OF ONE OF YOUR APPLICATION PROCESSES<o:p></o:p></p><p class=MsoNormal>=&nbsp;&nbsp; EXIT CODE: 11<o:p></o:p></p><p class=MsoNormal>=&nbsp;&nbsp; CLEANING UP REMAINING PROCESSES<o:p></o:p></p><p class=MsoNormal>=&nbsp;&nbsp; YOU CAN IGNORE THE BELOW CLEANUP MESSAGES<o:p></o:p></p><p class=MsoNormal>=====================================================================================<o:p></o:p></p><p class=MsoNormal>[proxy:0:0@tebow] HYD_pmcd_pmip_control_cmd_cb (./pm/pmiserv/pmip_cb.c:928): assert (!closed) failed<o:p></o:p></p><p class=MsoNormal>[proxy:0:0@tebow] HYDT_dmxu_poll_wait_for_event (./tools/demux/demux_poll.c:77): callback returned error status<o:p></o:p></p><p class=MsoNormal>[proxy:0:0@tebow] main (./pm/pmiserv/pmip.c:226): demux engine error waiting for event<o:p></o:p></p><p class=MsoNormal>[mpiexec@tebow] HYDT_bscu_wait_for_completion (./tools/bootstrap/utils/bscu_wait.c:70): one of the processes terminated badly; aborting<o:p></o:p></p><p class=MsoNormal>[mpiexec@tebow] HYDT_bsci_wait_for_completion (./tools/bootstrap/src/bsci_wait.c:23): launcher returned error waiting for completion<o:p></o:p></p><p class=MsoNormal>[mpiexec@tebow] HYD_pmci_wait_for_completion (./pm/pmiserv/pmiserv_pmci.c:191): launcher returned error waiting for completion<o:p></o:p></p><p class=MsoNormal>[mpiexec@tebow] main (./ui/mpich/mpiexec.c:405): process manager error waiting for completion<o:p></o:p></p><p class=MsoNormal>galloway@tebow:~/Flow3D/hybrid-test$<o:p></o:p></p></div></body></html>