Да, это я понимаю, но мне чтоб это оптимизировать надо перехерячить представление графа в памяти, чтобы в кеш второго уровня попадало все то, что я потенциально буду читать в ближайшее время?
Тут надо уже с тулзами смотреть, чтобы понять, есть ли с этим проблемы и если есть, то где конкретно.
Низкоуровневые профилировщики в это умеют (тот же intel vtune/его амд аналог/и т.п.) и могут вплоть до конкретной инструкции показать есть ли проблемы с кэш миссами.
А дальше уже смотреть - оно тупо не лезет в память/не справляется предсказатель переходов/или просто слишком много случайных доступов