MatGetSubMatrix and some of the matrix-matrix kernels might benefit from this operation. I don't know if it's a bottleneck, but if it is, this shows how to make it fast.<div><br></div><div><a href="https://highlyscalable.wordpress.com/2012/06/05/fast-intersection-sorted-lists-sse/">https://highlyscalable.wordpress.com/2012/06/05/fast-intersection-sorted-lists-sse/</a></div>
<div><br></div><div>Not a deep insight or surprising, but still a nice write-up.</div>