Hi,<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; Just out of curiosity, though I am not trying to do anything with the control signals that are exchanged during the progress engine, I wish to know what exactly the LSEND , LRECV and the like,are. <br><br>Thanks,<br>
Krishna Chaitanya K <br><br><div class="gmail_quote">On Feb 19, 2008 12:32 PM, Krishna Chaitanya &lt;<a href="mailto:kris.c1986@gmail.com">kris.c1986@gmail.com</a>&gt; wrote:<br><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
Hi Dave,<br> &nbsp; &nbsp; &nbsp;Thanks for that. I was pretty much lost over the last couple of<br>days. Will give it a fresh try again.<br> &nbsp; &nbsp; &nbsp;About the AMD machine. I should be able to have access to it in<br>about 7-8 hours.<br><br>
Thanks,<br><font color="#888888">Krishna Chaitanya K<br></font><div><div></div><div class="Wj3C7c"><br>On 2/19/08, Dave Goodell &lt;<a href="mailto:goodell@mcs.anl.gov">goodell@mcs.anl.gov</a>&gt; wrote:<br>&gt; responses inline<br>
&gt;<br>&gt; On Feb 18, 2008, at 10:35 PM, Krishna Chaitanya wrote:<br>&gt; &gt; Sorry for the delay.<br>&gt; &gt; &gt;Can you ping from one to the other<br>&gt; &gt; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; Yes, I was able to ssh into the other machine and try<br>
&gt; &gt; mpdcheck and the rest. Will try to figure out what the problem is.<br>&gt;<br>&gt; Be sure that you actually perform a ping between the two hosts in<br>&gt; question. &nbsp;If you ssh&#39;d in from a third host to both of them, then<br>
&gt; you don&#39;t have proof of proper routing between the two compute nodes.<br>&gt;<br>&gt; &gt; In the mean-time, I have been trying to understand the progress<br>&gt; &gt; engine by tracing a standard blocking mode send/recv program, on<br>
&gt; &gt; one machine. ( by using mpdboot -n 1). What exactly are the .i<br>&gt; &gt; files in the directory /mpid/common/sock/poll for?<br>&gt; &gt; I noticed that a function like &quot;MPIDU_Sock_post_readv&quot; is at :<br>
&gt; &gt; 1) src/mpid/common/sock/iocp/sock.c, which includes functions like<br>&gt; &gt; &quot;WSARecv&quot;,which is a function to receive data from a socket in<br>&gt; &gt; windows. ( I am working on a linux platform)<br>
&gt; &gt; 2)/mpich-src/src/mpid/common/sock/poll/sock_post.i.<br>&gt; &gt; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;Interestingly, I am not able to navigate through the<br>&gt; &gt; macros and functions in this file,by using tags (Why? ) . So, I can<br>
&gt; &gt; only see that we are playing around with pointers to update the<br>&gt; &gt; pollinfo structure. Where is this structure defined? The .i file<br>&gt; &gt; does not include any .h file. I tried &quot;grep&quot; on the main dir to<br>
&gt; &gt; locate the definition, it didnt return anything useful.<br>&gt; &gt; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;Can someone point me to a wiki article or any<br>&gt; &gt; documentation that gives some info on the .i files?<br>&gt;<br>&gt; There are two implementations of the sock code: &quot;iocp&quot; is the Windows<br>
&gt; implementation and &quot;poll&quot; is the unix-style implementation. &nbsp;Only one<br>&gt; of the two directories will be used in any particular build. &nbsp;In your<br>&gt; case, the &quot;poll&quot; directory will be chosen.<br>
&gt;<br>&gt; As for the *.i files, they confused me the first time that I saw<br>&gt; them. &nbsp;If you look at src/mpid/common/sock/poll/sock.c:215-222 you&#39;ll<br>&gt; see that they are included via the C preprocessor. &nbsp;I don&#39;t know the<br>
&gt; rationale for this approach as the code was written before I joined<br>&gt; the project. &nbsp;It is likely that your ctags program is not indexing<br>&gt; these *.i files because they don&#39;t end in *.h or *.c. &nbsp;You can<br>
&gt; probably convince it to index the *.i files as well with a<br>&gt; configuration file or some command-line switches (which will vary<br>&gt; among various ctags implementations).<br>&gt;<br>&gt; &quot;struct pollinfo&quot; is also defined in that same sock.c file.<br>
&gt;<br>&gt; Hope that helps,<br>&gt; -Dave<br>&gt;<br>&gt; &gt; Thanks,<br>&gt; &gt; Krishna Chaitanya K<br>&gt; &gt;<br>&gt; &gt; On Feb 15, 2008 3:22 PM, Dave Goodell &lt;<a href="mailto:goodell@mcs.anl.gov">goodell@mcs.anl.gov</a>&gt; wrote:<br>
&gt; &gt; What evidence do you have that the two machines are able to see each<br>&gt; &gt; other on the network? &nbsp;Can you ping from one to the other (and vice<br>&gt; &gt; versa)? &nbsp;What is the output of the &#39;route&#39; command on each of the<br>
&gt; &gt; hosts?<br>&gt; &gt;<br>&gt; &gt; -Dave<br>&gt; &gt;<br>&gt; &gt; On Feb 14, 2008, at 10:30 PM, Krishna Chaitanya wrote:<br>&gt; &gt;<br>&gt; &gt; &gt; Hi,<br>&gt; &gt; &gt; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; Turns out that the settings in the /etc/hosts file on the<br>
&gt; &gt; &gt; AMD machine was incorrect. So, mpdcheck -v -f mpd.hosts gives this :<br>&gt; &gt; &gt;<br>&gt; &gt; &gt; AMD machine : ( outwit )<br>&gt; &gt; &gt; kc@outwit:~$ mpdcheck -v -f mpd.hosts<br>&gt; &gt; &gt; obtaining hostname via gethostname and getfqdn<br>
&gt; &gt; &gt; gethostname gives &nbsp;outwit<br>&gt; &gt; &gt; getfqdn gives &nbsp;<a href="http://outwit.nitk.ac.in" target="_blank">outwit.nitk.ac.in</a><br>&gt; &gt; &gt; checking out unqualified hostname; make sure is not &quot;localhost&quot;,<br>
&gt; &gt; etc.<br>&gt; &gt; &gt; checking out qualified hostname; make sure is not &quot;localhost&quot;, etc.<br>&gt; &gt; &gt; obtain IP addrs via qualified and unqualified hostnames; &nbsp;make sure<br>&gt; &gt; &gt; other than <a href="http://127.0.0.1" target="_blank">127.0.0.1</a><br>
&gt; &gt; &gt; gethostbyname_ex: &nbsp;(&#39;<a href="http://outwit.nitk.ac.in" target="_blank">outwit.nitk.ac.in</a>&#39;, [&#39;outwit&#39;],<br>&gt; &gt; [&#39;<a href="http://172.16.54.54" target="_blank">172.16.54.54</a>&#39;])<br>
&gt; &gt; &gt; gethostbyname_ex: &nbsp;(&#39;<a href="http://outwit.nitk.ac.in" target="_blank">outwit.nitk.ac.in</a>&#39;, [&#39;outwit&#39;],<br>&gt; &gt; [&#39;<a href="http://172.16.54.54" target="_blank">172.16.54.54</a>&#39;])<br>
&gt; &gt; &gt; checking that IP addrs resolve to same host<br>&gt; &gt; &gt; now do some gethostbyaddr and gethostbyname_ex for machines in<br>&gt; &gt; &gt; hosts file<br>&gt; &gt; &gt; checking gethostbyXXX for unqualified zeus<br>
&gt; &gt; &gt; gethostbyname_ex: &nbsp;(&#39;zeus&#39;, [], [&#39;<a href="http://172.16.54.71" target="_blank">172.16.54.71</a>&#39;])<br>&gt; &gt; &gt; checking gethostbyXXX for qualified zeus<br>&gt; &gt; &gt; gethostbyname_ex: &nbsp;(&#39;zeus&#39;, [], [&#39;<a href="http://172.16.54.71" target="_blank">172.16.54.71</a>&#39;])<br>
&gt; &gt; &gt;<br>&gt; &gt; &gt;<br>&gt; &gt; &gt; INTEL machine ( zeus )<br>&gt; &gt; &gt; kris.c1986@zeus ~]$ mpdcheck -v -f mpd.hosts<br>&gt; &gt; &gt; obtaining hostname via gethostname and getfqdn<br>&gt; &gt; &gt; gethostname gives &nbsp;zeus<br>
&gt; &gt; &gt; getfqdn gives &nbsp;<a href="http://zeus.nitk.ac.in" target="_blank">zeus.nitk.ac.in</a><br>&gt; &gt; &gt; checking out unqualified hostname; make sure is not &quot;localhost&quot;,<br>&gt; &gt; etc.<br>&gt; &gt; &gt; checking out qualified hostname; make sure is not &quot;localhost&quot;, etc.<br>
&gt; &gt; &gt; obtain IP addrs via qualified and unqualified hostnames; &nbsp;make sure<br>&gt; &gt; &gt; other than <a href="http://127.0.0.1" target="_blank">127.0.0.1</a><br>&gt; &gt; &gt; gethostbyname_ex: &nbsp;(&#39;<a href="http://zeus.nitk.ac.in" target="_blank">zeus.nitk.ac.in</a>&#39;, [&#39;zeus&#39;], [&#39;<a href="http://172.16.54.71" target="_blank">172.16.54.71</a>&#39;])<br>
&gt; &gt; &gt; gethostbyname_ex: &nbsp;(&#39;<a href="http://zeus.nitk.ac.in" target="_blank">zeus.nitk.ac.in</a>&#39;, [&#39;zeus&#39;], [&#39;<a href="http://172.16.54.71" target="_blank">172.16.54.71</a>&#39;])<br>&gt; &gt; &gt; checking that IP addrs resolve to same host<br>
&gt; &gt; &gt; now do some gethostbyaddr and gethostbyname_ex for machines in<br>&gt; &gt; &gt; hosts file<br>&gt; &gt; &gt; checking gethostbyXXX for unqualified outwit<br>&gt; &gt; &gt; gethostbyname_ex: &nbsp;(&#39;outwit&#39;, [], [&#39;<a href="http://172.16.54.54" target="_blank">172.16.54.54</a>&#39;])<br>
&gt; &gt; &gt; checking gethostbyXXX for qualified outwit<br>&gt; &gt; &gt; gethostbyname_ex: &nbsp;(&#39;outwit&#39;, [], [&#39;<a href="http://172.16.54.54" target="_blank">172.16.54.54</a>&#39;])<br>&gt; &gt; &gt;<br>&gt; &gt; &gt; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;Seems to be ok. But I still get this error when I<br>
&gt; &gt; &gt; try mpdcheck -c on the AMD comp :<br>&gt; &gt; &gt; kc@outwit:~$ mpdcheck -c zeus 33737<br>&gt; &gt; &gt; Traceback (most recent call last):<br>&gt; &gt; &gt; &nbsp; File &quot;/home/kc/mpich-install/bin/mpdcheck&quot;, line 103, in &lt;module&gt;<br>
&gt; &gt; &gt; &nbsp; &nbsp; sock.connect((argv[argidx+1],int(argv[argidx+2]))) &nbsp;# note<br>&gt; &gt; &gt; double parens<br>&gt; &gt; &gt; &nbsp; File &quot;&lt;string&gt;&quot;, line 1, in connect<br>&gt; &gt; &gt; socket.error: (113, &#39;No route to host&#39;)<br>
&gt; &gt; &gt;<br>&gt; &gt; &gt;<br>&gt; &gt; &gt; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;The two machines are able to see each other on the<br>&gt; &gt; &gt; network. Cant exaplain why it complains that there is &quot;No route to<br>&gt; &gt; &gt; host&quot;<br>
&gt; &gt; &gt;<br>&gt; &gt; &gt; Krishna Chaitanya K<br>&gt; &gt; &gt;<br>&gt; &gt; &gt;<br>&gt; &gt; &gt; On Thu, Feb 14, 2008 at 2:50 PM, Rajeev Thakur &lt;<a href="mailto:thakur@mcs.anl.gov">thakur@mcs.anl.gov</a>&gt;<br>
&gt; &gt; &gt; wrote:<br>&gt; &gt; &gt; The second test times out perhaps indicates that there might be a<br>&gt; &gt; &gt; firewall on the AMD machine. See the section A.3 of the<br>&gt; &gt; &gt; installation guide.<br>
&gt; &gt; &gt;<br>&gt; &gt; &gt; Rajeev<br>&gt; &gt; &gt;<br>&gt; &gt; &gt; From: Krishna Chaitanya [mailto:<a href="mailto:kris.c1986@gmail.com">kris.c1986@gmail.com</a>]<br>&gt; &gt; &gt; Sent: Thursday, February 14, 2008 11:41 AM<br>
&gt; &gt; &gt; To: Rajeev Thakur<br>&gt; &gt; &gt; Cc: <a href="mailto:mpich-discuss@mcs.anl.gov">mpich-discuss@mcs.anl.gov</a><br>&gt; &gt; &gt; Subject: Re: [MPICH] Problem setting up MPICH between a 32 bit<br>&gt; &gt; &gt; INTEL and a 32 bit AMD machine<br>
&gt; &gt; &gt;<br>&gt; &gt; &gt; So, what is the error trying to convey? Googling for it, gave this.<br>&gt; &gt; &gt; I have flushed the IPtables on both the machines and the firewalls<br>&gt; &gt; &gt; are de-activated. Could you please elaborate on what kind of<br>
&gt; &gt; &gt; settings I need to look into?<br>&gt; &gt; &gt;<br>&gt; &gt; &gt; Thanks,<br>&gt; &gt; &gt; Krishna Chaitanya K<br>&gt; &gt; &gt;<br>&gt; &gt; &gt; On Thu, Feb 14, 2008 at 10:58 PM, Rajeev Thakur<br>&gt; &gt; &gt; &lt;<a href="mailto:thakur@mcs.anl.gov">thakur@mcs.anl.gov</a>&gt; wrote:<br>
&gt; &gt; &gt; It should be possible. mpdcheck is a tool to diagnose whether the<br>&gt; &gt; &gt; network configuration settings on the machines are ok or not, and<br>&gt; &gt; &gt; whether a process on one machine can talk to a process on the<br>
&gt; &gt; &gt; other. It looks like the settings need to be fixed in some way.<br>&gt; &gt; &gt;<br>&gt; &gt; &gt; Rajeev<br>&gt; &gt; &gt;<br>&gt; &gt; &gt; From: <a href="mailto:owner-mpich-discuss@mcs.anl.gov">owner-mpich-discuss@mcs.anl.gov</a> [mailto:<a href="mailto:owner-mpich-">owner-mpich-</a><br>
&gt; &gt; &gt; <a href="mailto:discuss@mcs.anl.gov">discuss@mcs.anl.gov</a>] On Behalf Of Krishna Chaitanya<br>&gt; &gt; &gt; Sent: Thursday, February 14, 2008 10:26 AM<br>&gt; &gt; &gt; To: <a href="mailto:mpich-discuss@mcs.anl.gov">mpich-discuss@mcs.anl.gov</a><br>
&gt; &gt; &gt; Subject: [MPICH] Problem setting up MPICH between a 32 bit INTEL<br>&gt; &gt; &gt; and a 32 bit AMD machine<br>&gt; &gt; &gt;<br>&gt; &gt; &gt; Hi,<br>&gt; &gt; &gt; &nbsp; &nbsp; &nbsp; &nbsp; In one of the previous posts, you had replied back saying<br>
&gt; &gt; &gt; MPICH cannot be put to use between a 32 bit INTEL machine and a 64<br>&gt; &gt; &gt; bit AMD machine. Is it possible to do so between an INTEL and an<br>&gt; &gt; &gt; AMD machine, both of them being 32 bit processors?<br>
&gt; &gt; &gt; &nbsp; &nbsp; &nbsp; &nbsp; Anyway, on trying mpdcheck -f mpd.hosts on the 32 bit AMD,<br>&gt; &gt; &gt; I am getting the following error :<br>&gt; &gt; &gt; &nbsp; &nbsp;ipaddr via uqn (<a href="http://208.67.216.130" target="_blank">208.67.216.130</a>) does not match via fqn<br>
&gt; &gt; &gt; (<a href="http://208.69.32.130" target="_blank">208.69.32.130</a>)<br>&gt; &gt; &gt; &nbsp; &nbsp; &nbsp; &nbsp; And if I try the mpdcheck -s on the AMD node and mpdcheck -<br>&gt; &gt; &gt; c on the INTEL node, the client times out. The test message gets<br>
&gt; &gt; &gt; delivered with the client and server swapped.<br>&gt; &gt; &gt;<br>&gt; &gt; &gt; Thanks,<br>&gt; &gt; &gt; Krishna Chaitanya K<br>&gt; &gt; &gt;<br>&gt; &gt; &gt;<br>&gt; &gt; &gt;<br>&gt; &gt; &gt;<br>&gt; &gt; &gt;<br>
&gt; &gt; &gt; --<br>&gt; &gt; &gt; In the middle of difficulty, lies opportunity<br>&gt; &gt; &gt;<br>&gt; &gt; &gt;<br>&gt; &gt; &gt;<br>&gt; &gt; &gt; --<br>&gt; &gt; &gt; In the middle of difficulty, lies opportunity<br>
&gt; &gt; &gt;<br>&gt; &gt; &gt;<br>&gt; &gt; &gt;<br>&gt; &gt; &gt; --<br>&gt; &gt; &gt; In the middle of difficulty, lies opportunity<br>&gt; &gt;<br>&gt; &gt;<br>&gt; &gt;<br>&gt; &gt;<br>&gt; &gt; --<br>&gt; &gt; In the middle of difficulty, lies opportunity<br>
&gt;<br>&gt;<br><br><br></div></div>--<br><div><div></div><div class="Wj3C7c">In the middle of difficulty, lies opportunity<br></div></div></blockquote></div><br><br clear="all"><br>-- <br>In the middle of difficulty, lies opportunity