<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">
<html>
  <head>

    <meta http-equiv="content-type" content="text/html; charset=ISO-8859-1">
  </head>
  <body bgcolor="#ffffff" text="#000000">
    Hi,<br>
    <br>
    I've recently compiled and installed mpich2-1.3rc2 an<font
      color="#000000">d mvapich2</font><font color="#000000"> 1.5.1p1 wi</font>th
    knem support enabled (using the options --with-device=ch3:nemesis
    --with-nemesis-local-lmt=knem --with-knem=/usr/local/knem). The
    version of knem that I use is 0.9.2<br>
    <br>
    Doing a cat of /dev/knem gives:<br>
    <font face="Courier New, Courier, monospace"><small>knem 0.9.2<br>
        &nbsp;Driver ABI=0xc<br>
        &nbsp;Flags: forcing 0x0, ignoring 0x0<br>
        &nbsp;DMAEngine: KernelSupported Enabled NoChannelAvailable<br>
        &nbsp;Debug: NotBuilt<br>
        &nbsp;Requests Submitted&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; : 119406<br>
        &nbsp;Requests Processed/DMA&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; : 0<br>
        &nbsp;Requests Processed/Thread&nbsp;&nbsp; : 0<br>
        &nbsp;Requests Processed/PinLocal : 0<br>
        &nbsp;Requests Failed/NoMemory&nbsp;&nbsp;&nbsp; : 0<br>
        &nbsp;Requests Failed/ReadCmd&nbsp;&nbsp;&nbsp;&nbsp; : 0<br>
        &nbsp;Requests Failed/FindRegion&nbsp; : 6<br>
        &nbsp;Requests Failed/Pin&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; : 0<br>
        &nbsp;Requests Failed/MemcpyToUser: 0<br>
        &nbsp;Requests Failed/MemcpyPinned: 0<br>
        &nbsp;Requests Failed/DMACopy&nbsp;&nbsp;&nbsp;&nbsp; : 0<br>
        &nbsp;Dmacpy Cleanup Timeout&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; : 0</small></font><br>
    <br>
    I ran several tests using IMB and osu benchmarks. All tests look
    fine (and I get good bandwidth results, comparable to what I could
    get with limic2) except the osu_bibw test from the osu benchmarks
    which throws the following error with mpich2:<br>
    <br>
    <small><font face="Courier New, Courier, monospace"># OSU MPI
        Bi-Directional Bandwidth Test v3.1.2<br>
        # Size&nbsp;&nbsp;&nbsp;&nbsp; Bi-Bandwidth (MB/s)<br>
        1&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 3.41<br>
        2&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 7.15<br>
        4&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 12.06<br>
        8&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 39.66<br>
        16&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 73.20<br>
        32&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 156.94<br>
        64&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 266.58<br>
        128&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 370.34<br>
        256&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 977.24<br>
        512&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 2089.85<br>
        1024&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 3498.96<br>
        2048&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 5543.29<br>
        4096&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 7314.23<br>
        8192&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 8381.86<br>
        16384&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 9291.81<br>
        32768&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 5948.53<br>
        Fatal error in PMPI_Waitall: Other MPI error, error stack:<br>
        PMPI_Waitall(274)...............: MPI_Waitall(count=64,
        req_array=0xa11a20, status_array=0xe23960) failed<br>
        MPIR_Waitall_impl(121)..........: <br>
        MPIDI_CH3I_Progress(393)........: <br>
        MPID_nem_handle_pkt(573)........: <br>
        pkt_RTS_handler(241)............: <br>
        do_cts(518).....................: <br>
        MPID_nem_lmt_dma_start_recv(365): <br>
        MPID_nem_lmt_send_COOKIE(173)...: ioctl failed errno=22 -
        Invalid argument<br>
        APPLICATION TERMINATED WITH THE EXIT STRING: Hangup (signal 1)</font></small><br>
    <br>
    It seems to come from the nemesis source and from the
    mpid_nem_lmt_dma.c file which uses knem but I don't really now what
    happens and I don't see anything special in that test which measures
    the bi-directional bandwidth. On another machine, I get the
    following error with mvapich2:<br>
    <br>
    <small><font face="Courier New, Courier, monospace"># OSU MPI
        Bi-Directional Bandwidth Test v3.1.2<br>
        # Size&nbsp;&nbsp;&nbsp;&nbsp; Bi-Bandwidth (MB/s)<br>
        1&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 1.92<br>
        2&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 3.86<br>
        4&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 7.72<br>
        8&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 15.44<br>
        16&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 30.75<br>
        32&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 61.44<br>
        64&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 122.54<br>
        128&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 232.62<br>
        256&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 416.85<br>
        512&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 718.60<br>
        1024&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 1148.63<br>
        2048&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 1462.37<br>
        4096&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 1659.45<br>
        8192&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 2305.22<br>
        16384&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 3153.85<br>
        32768&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 3355.30<br>
        APPLICATION TERMINATED WITH THE EXIT STRING: Terminated (signal
        15)</font></small><br>
    <br>
    Attaching gdb gives the following:<br>
    <small><font face="Courier New, Courier, monospace">Program received
        signal SIGSEGV, Segmentation fault.<br>
        0x00007f12691e4c99 in MPID_nem_lmt_dma_progress ()<br>
        &nbsp;&nbsp;&nbsp; at
/project/csvis/soumagne/apps/src/eiger/mvapich2-1.5.1p1/src/mpid/ch3/channels/nemesis/nemesis/src/mpid_nem_lmt_dma.c:484<br>
        484&nbsp;&nbsp;&nbsp; &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; prev-&gt;next = cur-&gt;next;</font></small><br>
    <br>
    Is there something wrong in my mpich2/knem configuration or does
    anyone know where does this problem come from? (the osu_bibw.c file
    is attached)<br>
    <br>
    Thanks in advance<br>
    <br>
    Jerome<br>
    <br>
    <pre class="moz-signature" cols="72">-- 
J&eacute;r&ocirc;me Soumagne
Scientific Computing Research Group
CSCS, Swiss National Supercomputing Centre 
Galleria 2, Via Cantonale  | Tel: +41 (0)91 610 8258
CH-6928 Manno, Switzerland | Fax: +41 (0)91 610 8282</pre>
    <br>
    <br>
    <br>
  </body>
</html>