I have been reading up and aware that MPICH2 is the currently used implementation. And I would have it here in our system as well, but the caveat is: we have a software named FastDL which is a parallelized version of IDL (by ITT). When it was ordered, it was compiled with MPICH1.2.7p1. Hence we had been trying to get MPICH1 up and running. It is possible to obtain the FastDL that would be compiled with MPICH2 but the problem of LSF still remains. The jobs cannot be spawned to different nodes of the cluster as a user since users cannot ssh into different nodes. They can only be spawned through LSF and the LSF here has been configured with SLURM. I have been under impression that this is particular to HP-XC clusters.<br>
<br>As far as interactive or debugging session goes, I do not know how to do srun in interactive session. How do you do that?<br clear="all"><br>Gauri.<br>---------<br>
<br><br><div class="gmail_quote">On Tue, Mar 3, 2009 at 10:37 PM, Anthony Chan <span dir="ltr">&lt;<a href="mailto:chan@mcs.anl.gov">chan@mcs.anl.gov</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
<br>
One advantage of MPICH2 over MPICH1 is that MPICH2 is a lot more robust<br>
in term of process management.  So debugging MPICH2 app with MPICH1 is<br>
easier.  Also, MPICH1 is no longer being developed, if you have any prolem<br>
with MPICH1, less people (if there is any) will be able to help you.<br>
<br>
A.Chan<br>
<div><div></div><div class="h5"><br>
----- &quot;Gauri Kulkarni&quot; &lt;<a href="mailto:gaurivk@gmail.com">gaurivk@gmail.com</a>&gt; wrote:<br>
<br>
&gt; Thanks, Rajeev.<br>
&gt;<br>
&gt; Is it the same case with MPICH1? The reason I need info about MPICH1<br>
&gt; with<br>
&gt; SLURM is because we have a software (FastDL) which has been compiled<br>
&gt; with<br>
&gt; MPICH1. We have asked the vendor to give us the software recompiled<br>
&gt; with<br>
&gt; MPICH2, but honestly, we do not know any particular advantage using<br>
&gt; MPICH2<br>
&gt; over MPICH1 (apart from the fact that MPICH1 isn&#39;t maintained<br>
&gt; anymore).<br>
&gt;<br>
&gt; On a sidenote, how do I reply to the thread? I only get the daily<br>
&gt; digest in<br>
&gt; mail.<br>
&gt;<br>
&gt; -Gauri.<br>
&gt; ----------<br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt; -------------<br>
&gt;<br>
&gt; Message: 4<br>
&gt; Date: Mon, 23 Feb 2009 23:38:06 -0600<br>
&gt; From: &quot;Rajeev Thakur&quot; &lt;<a href="mailto:thakur@mcs.anl.gov">thakur@mcs.anl.gov</a>&gt;<br>
&gt; Subject: Re: [mpich-discuss] HP-XC 3000 cluster issues<br>
&gt; To: &lt;<a href="mailto:mpich-discuss@mcs.anl.gov">mpich-discuss@mcs.anl.gov</a>&gt;<br>
&gt; Message-ID: &lt;72376B2D10EC43F9A0A433C960F951B6@thakurlaptop&gt;<br>
&gt; Content-Type: text/plain; charset=&quot;us-ascii&quot;<br>
&gt;<br>
&gt; To run MPICH2 with SLURM, configure with the options<br>
&gt; &quot;--with-pmi=slurm<br>
&gt; --with-pm=no&quot; as described in the MPICH2 README file. Also see the<br>
&gt; instructions on how to run MPICH2 with SLURM at<br>
&gt; <a href="https://computing.llnl.gov/linux/slurm/quickstart.html" target="_blank">https://computing.llnl.gov/linux/slurm/quickstart.html</a> .<br>
&gt;<br>
&gt; Rajeev<br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt;  _____<br>
&gt;<br>
&gt; From: <a href="mailto:mpich-discuss-bounces@mcs.anl.gov">mpich-discuss-bounces@mcs.anl.gov</a><br>
&gt; [mailto:<a href="mailto:mpich-discuss-bounces@mcs.anl.gov">mpich-discuss-bounces@mcs.anl.gov</a>] On Behalf Of Gauri<br>
&gt; Kulkarni<br>
&gt; Sent: Monday, February 23, 2009 11:19 PM<br>
&gt; To: <a href="mailto:mpich-discuss@mcs.anl.gov">mpich-discuss@mcs.anl.gov</a><br>
&gt; Subject: [mpich-discuss] HP-XC 3000 cluster issues<br>
&gt;<br>
&gt;<br>
&gt; Hi,<br>
&gt;<br>
&gt; I am a newbie to the MPI in general. Currently in our institute, we<br>
&gt; have a<br>
&gt; cluster of 16nodes-8processors. It is an HP-XC 3000 cluster which<br>
&gt; basically<br>
&gt; means, it&#39;s quite proprietary. It has its own MPI implementation -<br>
&gt; HP-MPI -<br>
&gt; in which, the parallelization is managed by SLURM (Simple Linux<br>
&gt; Utility for<br>
&gt; Resource Management). There is also a batch job scheduler - LSF (Load<br>
&gt; Sharing Facility) which works in tandem with SLURM to parallelize the<br>
&gt; batch<br>
&gt; jobs. We have installed both MPICH and MPICH2 and are testing it, but<br>
&gt; we are<br>
&gt; running into compatibility issues. For a simple helloworld.c program:<br>
&gt; 1. For HPMPI: Compiled with mpicc of this implemetation and executed<br>
&gt; with<br>
&gt; its mpirun: mpirun -np 4 helloworld works correctly. For batch<br>
&gt; scheduling,<br>
&gt; we need to isse &quot;bsub -n4 [other options] mpirun -srun helloworld&quot; and<br>
&gt; it<br>
&gt; runs fine too. &quot;srun&quot; is SLURM utility that parallelizes the jobs.<br>
&gt; 2. For MPICH and mPICH2: Again, compiled with mpicc of these<br>
&gt; respective<br>
&gt; implemetations and executed with their own mpirun:<br>
&gt;    i) mpirun -np 4 helloword : Works.<br>
&gt;   ii) mpirun -np 15 helloworld: The parallelization is limited to just<br>
&gt; a<br>
&gt; single node - that is 8 processes run first on 8 processors of a<br>
&gt; single node<br>
&gt; and then remaining ones.<br>
&gt;  iii) bsub -n4 [options] mpirun -srun hellowrold: Job terminated.<br>
&gt; srun<br>
&gt; option not recognized.<br>
&gt;   iv) bsub [options] mpirun -np 4 helloworld: Works<br>
&gt;   V) bsub [options] mpirun -np 15 helloworld: (Same as iii)<br>
&gt;<br>
&gt; Anybody aware of HP cluster issues with MPICH? Am I misinterpreting?<br>
&gt; Any<br>
&gt; help is appreciated.<br>
&gt;<br>
&gt; Gauri.<br>
&gt; ---------<br>
</div></div></blockquote></div><br>