<br><br><div class="gmail_quote">On Tue, Apr 5, 2011 at 7:31 AM, Barry Smith <span dir="ltr"><<a href="mailto:bsmith@mcs.anl.gov">bsmith@mcs.anl.gov</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex;">

<div><div></div><div class="h5"><br>
On Apr 5, 2011, at 1:31 AM, Satish Balay wrote:<br>
<br>
> On Mon, 4 Apr 2011, Dmitry Karpeev wrote:<br>
><br>
>> What is the patch level petsc-3.1 being used?  The dlopen() code that<br>
>> generates the<br>
>> error was added to petsc-dev after the initial release of 3.1.<br>
>><br>
>> Typically (on many systems) dlopen(NULL,dlflags) returns the handle of the<br>
>> main executable, as if it were<br>
>> a dynamically-loaded library, and dlsym() is then run on that handle. This<br>
>> doesn't work on all systems,<br>
>> though (e.g., OS X defines a specific handle for the main executable;<br>
>> enabling that means augmenting<br>
>> configure).  In particular, on this system, dlopen() with a NULL first<br>
>> argument appears to throw a confusing error.<br>
>><br>
>> The original release of petsc-3.1 would use dlsym(0) in this case, skipping<br>
>> dlopen(NULL,dlflags),<br>
>> so that is, perhaps, what works on XT5.  To revert to that behavior it<br>
>> should be sufficient<br>
>> to apply the following patch to petsc-dev/src/sys/dll/dlimpl.c (or simply to<br>
>> remove lines 269 through 308 inclusive).<br>
><br>
> For One - I don't think any of the default PETSc code should be doing<br>
> dlopen(executalbe) - if --with-dynamic-loading=0 is set [Otherwise why<br>
> have this option? suppress dlopen(libpetsc.so) - but enable<br>
> dlopen(executable)?]<br>
><br>
> So I've changed the fix below and disable it with:<br>
><br>
> #if defined(PETSC_HAVE_DLOPEN) && defined(PETSC_USE_DYNAMIC_LIBRARIES)<br>
><br>
> wrt dlsym(0) - we ignore the dlerror() from it - so I guess its ok..<br>
><br>
> This works fine on the cray - so pusing this change.<br>
><br>
> [I guess we still need to fix this for --with-dynamic-loading=1]<br>
<br>
</div></div>   I thought about this also, but it is the wrong fix. HAVE_DYNAMIC means that dynamic libraries work and the user can pass strings as functions; USE_DYNAMIC means make PETSc libraries dynamic and always use strings for functions.  The problem is only that we do not have the configure tests in places for various versions of dlopen() on the executable.  The correct fix is to make configure tests for dlopen() and change the PETSc code to do the various dlopen(0,...) variants based on the configure test.  Now we can punt on doing it correctly, but we'd be punting only out of lazyness, not because it is the right model.<br>


<br>
   BTW: someone should submit a bug report to Cray (and IBM if it doesn't work there also).<br></blockquote><div><br></div><div>Okay, but what's going on with petsc-3.1 on that machine?  It doesn't fail.  Is that because dlsym(0,string) works?</div>

<div>Or was dynamic loading disabled in it?</div><div><br></div><div>Dmitry.</div><div> </div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex;">
<font color="#888888"><br>
   Barry<br>
</font><div><div></div><div class="h5"><br>
<br>
><br>
> Satish<br>
><br>
>><br>
>> Dmitry.<br>
>><br>
>> @@ -266,46 +266,7 @@<br>
>>   }<br>
>>   else {<br>
>>     dlhandle = (dlhandle_t) 0;<br>
>> -<br>
>> -#if defined(PETSC_HAVE_DLOPEN)<br>
>> -    /* Attempt to retrieve the main executable's dlhandle. */<br>
>> -    { int dlflags1 = 0, dlflags2 = 0;<br>
>> -#if defined(PETSC_HAVE_RTLD_LAZY)<br>
>> -      dlflags1 = RTLD_LAZY;<br>
>> -#endif<br>
>> -      if(!dlflags1) {<br>
>> -#if defined(PETSC_HAVE_RTLD_NOW)<br>
>> -        dlflags1 = RTLD_NOW;<br>
>> -#endif<br>
>> -      }<br>
>> -#if defined(PETSC_HAVE_RTLD_LOCAL)<br>
>> -      dlflags2 = RTLD_LOCAL;<br>
>> -#endif<br>
>> -      if(!dlflags2) {<br>
>> -#if defined(PETSC_HAVE_RTLD_GLOBAL)<br>
>> -        dlflags2 = RTLD_GLOBAL;<br>
>> -#endif<br>
>> -      }<br>
>> -#if defined(PETSC_HAVE_DLERROR)<br>
>> -#if defined(PETSC_HAVE_VALGRIND)<br>
>> -    if (!(RUNNING_ON_VALGRIND)) {<br>
>> -#endif<br>
>> -      dlerror(); /* clear any previous error; valgrind does not like this<br>
>> */<br>
>> -#if defined(PETSC_HAVE_VALGRIND)<br>
>> -    }<br>
>> -#endif<br>
>> -#endif<br>
>> -      /* Attempt to open the main executable as a dynamic library. */<br>
>> -      dlhandle = dlopen(0, dlflags1|dlflags2);<br>
>> -    }<br>
>> -#if defined(PETSC_HAVE_DLERROR)<br>
>> -    { const char *e = (const char*) dlerror();<br>
>> -      if(e){<br>
>> -        SETERRQ1(PETSC_COMM_SELF, PETSC_ERR_ARG_WRONG, "Error opening main<br>
>> executable as a dynamic library:\n  Error message from dlopen(): '%s'\n",<br>
>> e);<br>
>> -      }<br>
>> -    }<br>
>> -#endif<br>
>> -#endif /* PETSC_HAVE_DLOPEN */<br>
>> +<br>
>>   }<br>
>> #if defined(PETSC_HAVE_DLERROR)<br>
>>   dlerror(); /* clear any previous error */<br>
>><br>
>><br>
>><br>
>> On Mon, Apr 4, 2011 at 7:26 PM, Matthew Knepley <<a href="mailto:petsc-maint@mcs.anl.gov">petsc-maint@mcs.anl.gov</a>>wrote:<br>
>><br>
>>> Now it is really hard for me to understand what the problem is since both<br>
>>> 3.1 and dev check for this<br>
>>> function in the same way. Moreover, it does not depend on shared libraries.<br>
>>><br>
>>> Satish, have you seen this error before on the XT5?<br>
>>><br>
>>>  Matt<br>
>>><br>
>>> On Mon, Apr 4, 2011 at 6:45 PM, Satish Balay <<a href="mailto:petsc-maint@mcs.anl.gov">petsc-maint@mcs.anl.gov</a><br>
>>>> wrote:<br>
>>><br>
>>>> On Mon, 4 Apr 2011, Sebastian Steiger wrote:<br>
>>>><br>
>>>>> On 04/04/2011 05:42 PM, Satish Balay wrote:<br>
>>>>>> Could you run both the binaries in the same node-allocation - with a<br>
>>>>>> single batch file and send the '-log_summary' for them?<br>
>>>>>> run petsc-dev<br>
>>>>>> run petsc-31<br>
>>>>>> run petsc-dev<br>
>>>>>> run petsc-31<br>
>>>>> Do you mean exactly the same physical nodes? I don't know how to do<br>
>>>>> that. My batch files for petsc-dev and petsc-3.1-p4 are identical<br>
>>> except<br>
>>>>> for the static executable.<br>
>>>><br>
>>>><br>
>>>> Haven't used batch stuff on ornl machine - but if the usual batch<br>
>>>> script file is something like: [for eg: pbs]<br>
>>>><br>
>>>>>>><br>
>>>> #!/bin/sh<br>
>>>> #PBS -N hello<br>
>>>> #PBS -l nodes=1:ppn=8<br>
>>>> #PBS -l walltime=0:00:15<br>
>>>> #PBS -j oe<br>
>>>><br>
>>>> cd $PBS_O_WORKDIR<br>
>>>> mpiexec ./ex1<br>
>>>> <<<<<<br>
>>>><br>
>>>> you could change it to:<br>
>>>><br>
>>>>>>>>><br>
>>>> #!/bin/sh<br>
>>>> #PBS -N hello<br>
>>>> #PBS -l nodes=1:ppn=8<br>
>>>> #PBS -l walltime=0:00:30<br>
>>>> #PBS -j oe<br>
>>>><br>
>>>> cd $PBS_O_WORKDIR<br>
>>>> mpiexec ./ex1<br>
>>>> mpiexec ./ex2<br>
>>>> mpiexec ./ex1<br>
>>>> mpiexec ./ex2<br>
>>>> <<<<<<<<br>
>>>><br>
>>>> and run it with a single allocation..<br>
>>>><br>
>>>> Satish<br>
>>>><br>
>>>><br>
>>><br>
>>><br>
>>> --<br>
>>> What most experimenters take for granted before they begin their<br>
>>> experiments<br>
>>> is infinitely more interesting than any results to which their experiments<br>
>>> lead.<br>
>>> -- Norbert Wiener<br>
>>><br>
>>><br>
>>> Now it is really hard for me to understand what the problem is since both<br>
>>> 3.1 and dev check for this<br>
>>> function in the same way. Moreover, it does not depend on shared libraries.<br>
>>><br>
>>> Satish, have you seen this error before on the XT5?<br>
>>><br>
>>>   Matt<br>
>>><br>
>>> On Mon, Apr 4, 2011 at 6:45 PM, Satish Balay <<a href="mailto:petsc-maint@mcs.anl.gov">petsc-maint@mcs.anl.gov</a>>wrote:<br>
>>><br>
>>>> On Mon, 4 Apr 2011, Sebastian Steiger wrote:<br>
>>>><br>
>>>>> On 04/04/2011 05:42 PM, Satish Balay wrote:<br>
>>>>>> Could you run both the binaries in the same node-allocation - with a<br>
>>>>>> single batch file and send the '-log_summary' for them?<br>
>>>>>> run petsc-dev<br>
>>>>>> run petsc-31<br>
>>>>>> run petsc-dev<br>
>>>>>> run petsc-31<br>
>>>>> Do you mean exactly the same physical nodes? I don't know how to do<br>
>>>>> that. My batch files for petsc-dev and petsc-3.1-p4 are identical except<br>
>>>>> for the static executable.<br>
>>>><br>
>>>><br>
>>>> Haven't used batch stuff on ornl machine - but if the usual batch<br>
>>>> script file is something like: [for eg: pbs]<br>
>>>><br>
>>>>>>><br>
>>>> #!/bin/sh<br>
>>>> #PBS -N hello<br>
>>>> #PBS -l nodes=1:ppn=8<br>
>>>> #PBS -l walltime=0:00:15<br>
>>>> #PBS -j oe<br>
>>>><br>
>>>> cd $PBS_O_WORKDIR<br>
>>>> mpiexec ./ex1<br>
>>>> <<<<<<br>
>>>><br>
>>>> you could change it to:<br>
>>>><br>
>>>>>>>>><br>
>>>> #!/bin/sh<br>
>>>> #PBS -N hello<br>
>>>> #PBS -l nodes=1:ppn=8<br>
>>>> #PBS -l walltime=0:00:30<br>
>>>> #PBS -j oe<br>
>>>><br>
>>>> cd $PBS_O_WORKDIR<br>
>>>> mpiexec ./ex1<br>
>>>> mpiexec ./ex2<br>
>>>> mpiexec ./ex1<br>
>>>> mpiexec ./ex2<br>
>>>> <<<<<<<<br>
>>>><br>
>>>> and run it with a single allocation..<br>
>>>><br>
>>>> Satish<br>
>>>><br>
>>>><br>
>>><br>
>>><br>
>>> --<br>
>>> What most experimenters take for granted before they begin their<br>
>>> experiments is infinitely more interesting than any results to which their<br>
>>> experiments lead.<br>
>>> -- Norbert Wiener<br>
>>><br>
>>><br>
>><br>
>><br>
><br>
><br>
<br>
</div></div></blockquote></div><br>