<div dir="ltr"><div dir="ltr">On Thu, Aug 20, 2020 at 11:09 AM Manav Bhatia <<a href="mailto:bhatiamanav@gmail.com">bhatiamanav@gmail.com</a>> wrote:<br></div><div class="gmail_quote"><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div style="overflow-wrap: break-word;"><br><div><br><blockquote type="cite"><div>On Aug 20, 2020, at 8:31 AM, Stefano Zampini <<a href="mailto:stefano.zampini@gmail.com" target="_blank">stefano.zampini@gmail.com</a>> wrote:</div><br><div><div style="font-family:Helvetica;font-size:12px;font-style:normal;font-variant-caps:normal;font-weight:normal;letter-spacing:normal;text-align:start;text-indent:0px;text-transform:none;white-space:normal;word-spacing:0px;text-decoration:none">Can you add a MPI_Barrier before</div><div style="font-family:Helvetica;font-size:12px;font-style:normal;font-variant-caps:normal;font-weight:normal;letter-spacing:normal;text-align:start;text-indent:0px;text-transform:none;white-space:normal;word-spacing:0px;text-decoration:none"><span style="font-family:Menlo;font-size:13px;background-color:rgb(255,255,255)"><br></span></div><div style="font-family:Helvetica;font-size:12px;font-style:normal;font-variant-caps:normal;font-weight:normal;letter-spacing:normal;text-align:start;text-indent:0px;text-transform:none;white-space:normal;word-spacing:0px;text-decoration:none"><span style="font-family:Menlo;font-size:13px;background-color:rgb(255,255,255)">ierr = MatAssemblyBegin(aij->A,mode);CHKERRQ(ierr);</span><div><br></div></div></div></blockquote><div><br></div><div>With a MPI_Barrier before this function call:</div><div>—  three of the processes have already hit this barrier, </div><div>—  the other 5 are inside MatStashScatterGetMesg_Private -> MatStashScatterGerMesg_BTS -> MPI_Waitsome(2 processes)/MPI_Waitall(3 processes)</div></div></div></blockquote><div><br></div><div>Okay, you should run this with -matstash_legacy just to make sure it is not a bug in your MPI implementation. But it looks like</div><div>there is inconsistency in the parallel state. This can happen because we have a bug, or it could be that you called a collective</div><div>operation on a subset of the processes. Is there any way you could cut down the example (say put all 1s in the matrix, etc) so</div><div>that you could give it to us to run?</div><div><br></div><div>  Thanks,</div><div><br></div><div>     Matt</div><div> </div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div style="overflow-wrap: break-word;"><div><blockquote type="cite"><div><div style="font-family:Helvetica;font-size:12px;font-style:normal;font-variant-caps:normal;font-weight:normal;letter-spacing:normal;text-align:start;text-indent:0px;text-transform:none;white-space:normal;word-spacing:0px;text-decoration:none"><div>Also, in order to assess where the issue is, we need to see the values (per rank) of </div><div><br></div><div><span style="font-family:Menlo;font-size:13px;background-color:rgb(255,255,255)">((Mat_SeqAIJ*)aij->B->data)->nonew</span></div><div><span style="font-family:Menlo;font-size:13px;background-color:rgb(255,255,255)">mat->was_assembled</span></div><div><span style="font-family:Menlo;font-size:13px;background-color:rgb(255,255,255)">aij->donotstash</span></div><div><span style="font-family:Menlo;font-size:13px;background-color:rgb(255,255,255)">mat->nooffprocentries</span></div><div><br></div></div></div></blockquote><div><br></div><div>I am working to get this information. </div><br><blockquote type="cite"><div><div style="font-family:Helvetica;font-size:12px;font-style:normal;font-variant-caps:normal;font-weight:normal;letter-spacing:normal;text-align:start;text-indent:0px;text-transform:none;white-space:normal;word-spacing:0px;text-decoration:none"><div>Another question: is this the first matrix assembly of the code?</div></div></div></blockquote><div><br></div><div>Yes, this is the first matrix assembly in the code. </div><br><blockquote type="cite"><div><div style="font-family:Helvetica;font-size:12px;font-style:normal;font-variant-caps:normal;font-weight:normal;letter-spacing:normal;text-align:start;text-indent:0px;text-transform:none;white-space:normal;word-spacing:0px;text-decoration:none"><div>If you change to pc_none, do you get the same issue?</div></div></div></blockquote></div><div><br></div><div>Yes, with "-pc_type none” the code is stuck at the same spot. </div></div></blockquote></div><br clear="all"><div><br></div>-- <br><div dir="ltr" class="gmail_signature"><div dir="ltr"><div><div dir="ltr"><div><div dir="ltr"><div>What most experimenters take for granted before they begin their experiments is infinitely more interesting than any results to which their experiments lead.<br>-- Norbert Wiener</div><div><br></div><div><a href="http://www.cse.buffalo.edu/~knepley/" target="_blank">https://www.cse.buffalo.edu/~knepley/</a><br></div></div></div></div></div></div></div></div>