<br><br><div class="gmail_quote">On Wed, Jul 28, 2010 at 3:12 AM, Nicolas Rosner <span dir="ltr">&lt;<a href="mailto:nrosner@gmail.com">nrosner@gmail.com</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex;">
Hi Ivan and all,<br>
<br>
We use MPICH2 (in user space) on a cluster that runs Torque/PBS (as<br>
provided by root).<br>
<br>
I never really managed to properly &quot;integrate&quot; the two (I&#39;m not sure<br>
there&#39;s even a standard way to do that -- e.g. even if you were to use<br>
MPI2 spawn et al for dynamic proc mgmt, I suppose you&#39;d still be<br>
trapped within the MPD-supplied MPI world, no?).<br>
<br>
But, frankly, so far I&#39;ve had no real need for such a thing. So what I<br>
do is this: my job desc files (the .pbs text file, or whatever you&#39;ll<br>
qsub) contain<br>
<br>
1) a pipeline similar to the one Camilo described<br>
<br>
2) commands that ensure no old forgotten mpd processes remain out<br>
there (it&#39;s a !@$ when your whole job dies after days waiting because<br>
a ring failed to boot!)<br>
<br>
3) commands that ensure a new clean mpd ring gets booted properly<br>
w/the right args according to what we parsed in 1), etc.<br>
<br>
4)   # put your favorite mpiexec here<br>
<br>
5) mpdallexit.<br>
<br>
That seems to work quite well, at least for my needs.<br>
<br>
Cheers,<br>
N.<br>
<br>
<br>
PS: Hydra works like a charm on our 3-PC testing &quot;minicluster&quot; at the<br>
office (I really enjoy forgetting about the mpd ring drill<br>
altogether!) but I couldn&#39;t get it to stop choking on some dns quirk<br>
of the real cluster (where, alas, no root), so I&#39;m still using mpd<br>
there. If you&#39;re interested in some wrapper scripts (just hacks, but<br>
they do the job), do let me know.<br>
<br>
<br></blockquote><div><br></div><div>Right now I moved from using mpd to hydra and has been working fine, it&#39;s still on testing phase, but if everything goes fine I find it a good solution since it&#39;s powerful and you don&#39;t have to mess with mpd&#39;s ring. Thanks a lot for your help.</div>
<div> </div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex;">
<br>
 .pbs jobspecs (the text files that I qsub) usually contain something<br>
similar to what Camilo mentioned<br>
<div><div></div><div class="h5"><br>
<br>
<br>
<br>
<br>
On Mon, Jul 26, 2010 at 11:44 AM, Ivan Pulido &lt;<a href="mailto:mefistofeles87@gmail.com">mefistofeles87@gmail.com</a>&gt; wrote:<br>
&gt;<br>
&gt;<br>
&gt; On Fri, Jul 23, 2010 at 6:24 PM, Pavan Balaji &lt;<a href="mailto:balaji@mcs.anl.gov">balaji@mcs.anl.gov</a>&gt; wrote:<br>
&gt;&gt;<br>
&gt;&gt; Ivan,<br>
&gt;&gt;<br>
&gt;&gt; Can you try using the Hydra process manager?<br>
&gt;&gt;<br>
&gt;&gt; % mpiexec.hydra -rmk pbs ./application<br>
&gt;&gt;<br>
&gt;<br>
&gt; This didn&#39;t work, I&#39;m not sure if this has to be with the way I&#39;ve set up my<br>
&gt; cluster. When I try running that command specifying 20 nodes (-n 20) all the<br>
&gt; jobs are run on a single machine and the PBS server doesn&#39;t find out about<br>
&gt; this application running (qstat doesn&#39;t shopw anything). Any ideas about<br>
&gt; this subject are very welcome.<br>
&gt;<br>
&gt; Thanks.<br>
&gt;<br>
&gt;&gt;<br>
&gt;&gt;  -- Pavan<br>
&gt;&gt;<br>
&gt;&gt; On 07/23/2010 05:15 PM, Ivan Pulido wrote:<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt; Hello, I&#39;m trying to configure torque resource manager and MPICH2 (with<br>
&gt;&gt;&gt; MPD) but Im having some issues.<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt; The MPICH2 user&#39;s guide says there&#39;s a way to convert the Torque node<br>
&gt;&gt;&gt; file to one MPD can read, but this is outdated since the syntax used by<br>
&gt;&gt;&gt; torque nowadays is not the one mentioned on MPICH2 user&#39;s guide, so I can&#39;t<br>
&gt;&gt;&gt; use what&#39;s there to use Torque with MPICH2. On the other hand, I tried using<br>
&gt;&gt;&gt; OSC mpiexec <a href="http://www.osc.edu/~djohnson/mpiexec/" target="_blank">http://www.osc.edu/~djohnson/mpiexec/</a> with no good results since<br>
&gt;&gt;&gt; it&#39;s looking for a libpbs.a that&#39;s not part of Torque default install (this<br>
&gt;&gt;&gt; is for torque&#39;s mailling list).<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt; So, what I&#39;m trying to tell is that the ways the user&#39;s guide advice to<br>
&gt;&gt;&gt; use MPICH2 with torque functionality are not correct with newest versions of<br>
&gt;&gt;&gt; the software involved. So I&#39;d like to know if there&#39;s a way to use MPICH2<br>
&gt;&gt;&gt; with torque functionality that really works with newest versions, I&#39;d really<br>
&gt;&gt;&gt; like a help with this since we need using MPI in our cluster urgently.<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt; Thanks.<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt; --<br>
&gt;&gt;&gt; Ivan Pulido<br>
&gt;&gt;&gt; Estudiante de Física<br>
&gt;&gt;&gt; Universidad Nacional de Colombia<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt; ------------------------------------------------------------------------<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt; _______________________________________________<br>
&gt;&gt;&gt; mpich-discuss mailing list<br>
&gt;&gt;&gt; <a href="mailto:mpich-discuss@mcs.anl.gov">mpich-discuss@mcs.anl.gov</a><br>
&gt;&gt;&gt; <a href="https://lists.mcs.anl.gov/mailman/listinfo/mpich-discuss" target="_blank">https://lists.mcs.anl.gov/mailman/listinfo/mpich-discuss</a><br>
&gt;&gt;<br>
&gt;&gt; --<br>
&gt;&gt; Pavan Balaji<br>
&gt;&gt; <a href="http://www.mcs.anl.gov/~balaji" target="_blank">http://www.mcs.anl.gov/~balaji</a><br>
&gt;&gt; _______________________________________________<br>
&gt;&gt; mpich-discuss mailing list<br>
&gt;&gt; <a href="mailto:mpich-discuss@mcs.anl.gov">mpich-discuss@mcs.anl.gov</a><br>
&gt;&gt; <a href="https://lists.mcs.anl.gov/mailman/listinfo/mpich-discuss" target="_blank">https://lists.mcs.anl.gov/mailman/listinfo/mpich-discuss</a><br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt; --<br>
&gt; Ivan Pulido<br>
&gt; Estudiante de Física<br>
&gt; Universidad Nacional de Colombia<br>
&gt;<br>
&gt; _______________________________________________<br>
&gt; mpich-discuss mailing list<br>
&gt; <a href="mailto:mpich-discuss@mcs.anl.gov">mpich-discuss@mcs.anl.gov</a><br>
&gt; <a href="https://lists.mcs.anl.gov/mailman/listinfo/mpich-discuss" target="_blank">https://lists.mcs.anl.gov/mailman/listinfo/mpich-discuss</a><br>
&gt;<br>
&gt;<br>
_______________________________________________<br>
mpich-discuss mailing list<br>
<a href="mailto:mpich-discuss@mcs.anl.gov">mpich-discuss@mcs.anl.gov</a><br>
<a href="https://lists.mcs.anl.gov/mailman/listinfo/mpich-discuss" target="_blank">https://lists.mcs.anl.gov/mailman/listinfo/mpich-discuss</a><br>
</div></div></blockquote></div><br><br clear="all"><br>-- <br>Ivan Pulido<br>Estudiante de Física<br>Universidad Nacional de Colombia<br>