Hi! <br><br>@Gus Correa<br>My machine has 2.6.18-92.1.13.el5&nbsp; kernel.<br><br>I have resolved my problem by switching to the lateste version of mpich2.<br><br><br><br>Luís<br><br><br><div class="gmail_quote">2009/2/5 Gus Correa <span dir="ltr">&lt;<a href="mailto:gus@ldeo.columbia.edu">gus@ldeo.columbia.edu</a>&gt;</span><br>
<blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">PS - Luiz, list:<br>
<br>
For what it is worth,<br>
I can run your code with MPICH-1 on a Rocks 4.3 cluster,<br>
with 2.6.9-55.0.2.ELsmp kernel. (See results below.)<br>
Just like Siegmar did.<br>
<br>
It would be interesting to know which kernel is installed on<br>
your and on Siegmar&#39;s machine.<br>
It was argued on the Rocks list<br>
that MPICH-1 wouldn&#39;t work with more recent kernels<br>
(such as the ones in Rocks 5.1 / CentOS 5.2).<br>
<br>
See the same threads that I mentioned before:<div class="Ih2E3d"><br>
<a href="http://marc.info/?l=npaci-rocks-discussion&amp;m=123124666119400&amp;w=2" target="_blank">http://marc.info/?l=npaci-rocks-discussion&amp;m=123124666119400&amp;w=2</a><br>
<a href="http://marc.info/?l=npaci-rocks-discussion&amp;m=123110011830125&amp;w=2" target="_blank">http://marc.info/?l=npaci-rocks-discussion&amp;m=123110011830125&amp;w=2</a><br>
<br></div>
>From what was reported there also,<br>
MPICH-2 with the sockets communication channel<br>
produced errors on Rocks 5.1 / CentOS 5.2 too.<br>
<br>
However, MPICH-2 with Nemesis seems to have worked fine.<br>
So, better upgrade to it.<br>
<br>
My second two cents.<div class="Ih2E3d"><br>
<br>
Gus Correa<br>
---------------------------------------------------------------------<br>
Gustavo Correa<br>
Lamont-Doherty Earth Observatory - Columbia University<br>
Palisades, NY, 10964-8000 - USA<br>
---------------------------------------------------------------------<br>
<br>
<br></div>
******** output of Luis&#39; program *****<br>
<br>
Thu Feb &nbsp;5 16:59:02 EST 2009<br>
executing ...<div class="Ih2E3d"><br>
i&#39;m process 2 de 4...<br>
SLAVE 2: trying to receive message...<br></div>
SLAVE 2 MAQUINA compute-0-0.local: receive message 1<div class="Ih2E3d"><br>
&nbsp;i&#39;m process 3 de 4...<br>
SLAVE 3: trying to receive message...<br></div>
SLAVE 3 MAQUINA compute-0-0.local: receive message 1<div class="Ih2E3d"><br>
&nbsp;i&#39;m process 1 de 4...<br>
SLAVE 1: trying to receive message...<br></div>
SLAVE 1 MAQUINA compute-0-1.local: receive message 1<div class="Ih2E3d"><br>
&nbsp;i&#39;m process 0 de 4...<br>
ROOT: trying to send message...<br>
ROOT: trying to send message...<br></div><div class="Ih2E3d">
ROOT: trying to send message...<br></div>
tlm ended at:<br>
Thu Feb &nbsp;5 16:59:04 EST 2009<br>
<br>
********<div><div></div><div class="Wj3C7c"><br>
<br>
Gus Correa wrote:<br>
<blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
Hi Luis, Siegmar, Rajeev, and list<br>
<br>
Just some wild guesses.<br>
Is your cluster a ROCKS 5.1, or does it use CentOS 5.2 or RHEL 5.2?<br>
Somebody using MPICH-1 recently posted similar, hard to explain,<br>
p4 errors on the Rocks mailing list.<br>
The person was just trying to run the cpi.c example.<br>
<br>
A number of people there, including myself,<br>
recommended switching from MPICH-1 to MPICH-2 (with nemesis).<br>
When this was done, the problem was solved.<br>
<br>
See these threads:<br>
<a href="http://marc.info/?l=npaci-rocks-discussion&amp;m=123124666119400&amp;w=2" target="_blank">http://marc.info/?l=npaci-rocks-discussion&amp;m=123124666119400&amp;w=2</a><br>
<a href="http://marc.info/?l=npaci-rocks-discussion&amp;m=123110011830125&amp;w=2" target="_blank">http://marc.info/?l=npaci-rocks-discussion&amp;m=123110011830125&amp;w=2</a><br>
<br>
My two cents,<br>
<br>
Gus Correa<br>
---------------------------------------------------------------------<br>
Gustavo Correa<br>
Lamont-Doherty Earth Observatory - Columbia University<br>
Palisades, NY, 10964-8000 - USA<br>
---------------------------------------------------------------------<br>
<br>
Siegmar Gross wrote:<br>
<blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;"><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">

Hi. I&#39;m trying to run this:<br>
&nbsp;/opt/mpich/gnu/bin/mpirun -v -np 2 &nbsp; &nbsp;-machinefile program<br>
<br>
but i get this error:<br>
<br>
i&#39;m process 0 de 2...<br>
ROOT: &nbsp;trying to send message...<br>
p0_26706: &nbsp;p4_error: interrupt SIGSEGV: 11<br>
Killed by signal 2.<br>
p0_26706: (0.113281) net_send: could not write to fd=4, errno = 32<br>
</blockquote>
<br>
I have no problems with your code.<br>
<br>
linpc1 fd1026 69 which mpicc<br>
/usr/local/mpich-1.2.5.2/bin/mpicc<br>
linpc1 fd1026 70 mpicc x.c<br>
<br>
linpc1 fd1026 71 mpirun -np 3 a.out<br>
i&#39;m process 0 de 3...<br>
ROOT: trying to send message...<br>
ROOT: trying to send message...<br>
i&#39;m process 1 de 3...<br>
SLAVE 1: trying to receive message...<br>
SLAVE 1 MAQUINA <a href="http://linpc0.informatik.hs-fulda.de" target="_blank">linpc0.informatik.hs-fulda.de</a>: receive message 1<br>
&nbsp;i&#39;m process 2 de 3...<br>
SLAVE 2: trying to receive message...<br>
SLAVE 2 MAQUINA <a href="http://linpc0.informatik.hs-fulda.de" target="_blank">linpc0.informatik.hs-fulda.de</a>: receive message 1<br>
<br>
&nbsp;linpc1 fd1026 72 mpirun -machinefile x.machines -np 3 a.out<br>
i&#39;m process 0 de 3...<br>
ROOT: trying to send message...<br>
ROOT: trying to send message...<br>
i&#39;m process 2 de 3...<br>
SLAVE 2: trying to receive message...<br>
SLAVE 2 MAQUINA <a href="http://linpc3.informatik.hs-fulda.de" target="_blank">linpc3.informatik.hs-fulda.de</a>: receive message 1<br>
&nbsp;i&#39;m process 1 de 3...<br>
SLAVE 1: trying to receive message...<br>
SLAVE 1 MAQUINA <a href="http://linpc2.informatik.hs-fulda.de" target="_blank">linpc2.informatik.hs-fulda.de</a>: receive message 1<br>
<br>
&nbsp;linpc1 fd1026 73 mpirun -v -machinefile x.machines -np 2 a.out<br>
running /home/fd1026/a.out on 2 LINUX ch_p4 processors<br>
Created /home/fd1026/PI28729<br>
i&#39;m process 0 de 2...<br>
ROOT: trying to send message...<br>
i&#39;m process 1 de 2...<br>
SLAVE 1: trying to receive message...<br>
SLAVE 1 MAQUINA <a href="http://linpc2.informatik.hs-fulda.de" target="_blank">linpc2.informatik.hs-fulda.de</a>: receive message 1<br>
&nbsp;linpc1 fd1026 74<br>
<br>
Siegmar<br>
</blockquote></blockquote>
<br>
</div></div></blockquote></div><br>