<div dir="ltr">Hi Mihael,<div><br></div><div>The strace command is not accepting the -f option. From the man page of strace, I see that the option relates to the forked processes which might be the reason why that option is causing error on BG/Q. Here is the error message:</div><div><br></div><div><div>Execution failed:</div><div>Exception in strace:</div><div>    Arguments: [-fo, /home/ketan/strace.f.out, /home/ketan/SwiftApps/subjobs/bg.sh, /soft/applications/lammps/24Apr13/lmp_bgq_xlomp, -in, input.lammps]</div><div>    Host: cluster</div><div>    Directory: workflow.bgq-run016/jobs/r/strace-rqnmne1m</div><div><span class="" style="white-space:pre">    </span>exception @ swift-int-staging.k, line: 181</div><div>Caused by: The following output files were not created by the application: lammps.dump</div><div><br></div><div>------- Application STDERR --------</div><div>2014-12-08 21:20:43.872 (INFO ) [0xfff7c25bde0] ibm.runjob.AbstractOptions: using properties file /bgsys/local/etc/bg.properties</div><div>2014-12-08 21:20:43.874 (INFO ) [0xfff7c25bde0] ibm.runjob.AbstractOptions: max open file descriptors: 65536</div><div>2014-12-08 21:20:43.874 (INFO ) [0xfff7c25bde0] ibm.runjob.AbstractOptions: core file limit: 18446744073709551615</div><div>2014-12-08 21:20:43.876 (INFO ) [0xfff7c25bde0] 27211:tatu.runjob.client: scheduler job id is 377978</div><div>log4cxx: No appender could be found for logger (tatu.runjob.monitor).</div><div>log4cxx: Please initialize the log4cxx system properly.</div><div>2014-12-08 21:20:43.912 (FATAL) [0xfff7c25bde0] 27211:tatu.runjob.client: failed reading: Connection reset by peer</div><div>2014-12-08 21:20:43.912 (FATAL) [0xfff7c25bde0] 27211:tatu.runjob.client: protocol version exchange between the runjob client and monitor failed</div><div>-----------------------------------</div></div><div><br></div><div>Thanks,</div><div>Ketan</div></div><div class="gmail_extra"><br><div class="gmail_quote">On Mon, Dec 8, 2014 at 3:09 PM, Mihael Hategan <span dir="ltr"><<a href="mailto:hategan@mcs.anl.gov" target="_blank">hategan@mcs.anl.gov</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><span class="im HOEnZb">On Mon, 2014-12-08 at 14:07 -0600, Ketan Maheshwari wrote:<br>
</span><span class="im HOEnZb">> I tried to get strace output with two methods:<br>
><br>
> stderr.txt: This was obtained by attaching the "--strace 0" switch to the<br>
> runjob command. It seems to be exiting normally after writing a bunch of<br>
> stuff.<br>
><br>
> strace.out: This one was obtained by wrapping the app exe with strace -o<br>
> $HOME/strace.out  ...<br>
<br>
</span><span class="im HOEnZb">Are you sure? It looks like you wrapped the execution of bg.sh in<br>
strace. This log only tells us that bg.sh starts runjob and runjob never<br>
completes, which we already know. You probably want to go to the lowest<br>
level possible. But see below (*).<br>
<br>
><br>
</span><span class="im HOEnZb">> This one shows a stuck output with the last line as:<br>
><br>
> waitpid(-1, %<br>
<br>
</span><span class="im HOEnZb">waitpid means it's waiting for a subprocess, so this isn't useful<br>
because we want to find out what the leaf subprocess is hanging on. You<br>
could use the '-f' argument to strace to make it follow subprocesses. If<br>
you do that, it probably won't matter (aside from noise) at what level<br>
you use strace (*).<br>
<br>
Mihael<br>
<br>
</span><div class="HOEnZb"><div class="h5">_______________________________________________<br>
Swift-devel mailing list<br>
<a href="mailto:Swift-devel@ci.uchicago.edu">Swift-devel@ci.uchicago.edu</a><br>
<a href="https://lists.ci.uchicago.edu/cgi-bin/mailman/listinfo/swift-devel" target="_blank">https://lists.ci.uchicago.edu/cgi-bin/mailman/listinfo/swift-devel</a><br>
</div></div></blockquote></div><br></div>