<div dir="ltr">This is indeed a nasty bug, but having two separate should be useful.<div><br></div><div>Chris is using Haswell, what MPI are you using? I trust you are not using Moose.</div><div><br></div><div>Fande what machine/MPI are you using?</div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Mon, Jul 20, 2020 at 3:04 PM Chris Hewson <<a href="mailto:chris@resfrac.com">chris@resfrac.com</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr">Hi Mark,<div><br></div><div><span style="color:rgb(14,16,26)">Chris: It sounds like you just have one matrix that you give to MUMPS. You seem to be creating a matrix in the middle of your run. Are you doing dynamic adaptivity?</span></div><div><font color="#0e101a">- I have 2 separate matrices I give to mumps, but as this is happening in the production build of my code, I can't determine with certainty what call to MUMPS it's happening or what call to KSPBCGS or UMFPACK it's happening in. </font></div><div><font color="#0e101a"><br></font></div><div><font color="#0e101a">I do destroy and recreate matrices in the middle of my runs, but this happens multiple times before the fault happens and in (presumably) the same way. I also do checks on matrix sizes and what I am sending to PETSc and those all pass, just at some point there are size mismatches somewhere, understandably this is not a lot to go on. I am not doing dynamic adaptivity, the mesh is instead changing its size.</font></div><div><font color="#0e101a"><br></font></div><div><font color="#0e101a">And I agree with Fande, the most frustrating part is that it's not reproducible, but yah not 100% sure that the problem lies within the PETSc code base either. </font></div><div><font color="#0e101a"><br></font></div><div><font color="#0e101a">Current working theories are:</font></div><div><font color="#0e101a">1. Some sort of MPI problem with the sending of one the matrix elements (using mpich version </font>3.3a2)</div><div><font color="#0e101a">2. Some of the memory of static pointers gets corrupted, although I would expect a garbage number and not something that could possibly make sense.</font></div><div><div><div dir="ltr"><div dir="ltr"><div><div dir="ltr"><div><div dir="ltr"><b><br></b></div><div dir="ltr"><b>Chris Hewson</b><div>Senior Reservoir Simulation Engineer</div><div>ResFrac</div><div>+1.587.575.9792</div></div></div></div></div></div></div></div><br></div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Mon, Jul 20, 2020 at 12:41 PM Mark Adams <<a href="mailto:mfadams@lbl.gov" target="_blank">mfadams@lbl.gov</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr"><div dir="ltr"><br></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Mon, Jul 20, 2020 at 2:36 PM Fande Kong <<a href="mailto:fdkong.jd@gmail.com" target="_blank">fdkong.jd@gmail.com</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr"><div dir="ltr">Hi Mark,<div><br></div><div>Just to be clear, I do not think it is related to GAMG or PtAP. It is a communication issue:</div></div></div></blockquote><div><br></div><div>Youe stack trace was from PtAP, but Chris's problem is not.</div><div> </div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr"><div dir="ltr"><div><br></div><div>Reran the same code, and I just got :</div><div><br></div><div><div>[252]PETSC ERROR: --------------------- Error Message --------------------------------------------------------------</div><div>[252]PETSC ERROR: Petsc has generated inconsistent data</div><div>[252]PETSC ERROR: Received vector entry 4469094877509280860 out of local range [255426072,256718616)]</div></div></div></div></blockquote><div><br></div><div>OK, now this (4469094877509280860) is clearly garbage. THat is the important thing.  I have to think your MPI is buggy.</div><div><br></div><div><br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div class="gmail_quote"><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div class="gmail_quote"><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div class="gmail_quote"><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div class="gmail_quote"><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div class="gmail_quote"><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div class="gmail_quote"><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">
</blockquote></div>
</blockquote></div>
</blockquote></div>
</blockquote></div></div></div></div>
</blockquote></div>
</blockquote></div>
</blockquote></div></div>
</blockquote></div>
</blockquote></div>