
Присоединяюсь к уже высказавшемся, о такой карте не слышал, хотя звучит круто. Слышал только об ответе на такие вопросы в индивидуальном порядке.
Например, если заменить вопрос “как часто исполняются jmp” (имелись ввиду именно безусловные переходы конкретно на x86, или что, кстати?) на “средний размер базового блока” (это другой вопрос), то самый популярный ответ “4-8 инструкций в среднем в зависимости от характера приложения”, а вообще ислледования на эту тему гуглятся: https://www.researchgate.net/figure/220540057_Average-Basic-Block-Length. “Средний размер BB по горячим путям в CFG” - это уже другой вопрос, ответа на него я не знаю, но я удивлюсь, если он сильно отличается от среднего по всему графу.
Еще https://software.intel.com/en-us/blogs/2013/09/18/processor-tracing гуглится, звучит как что-то полезное.
К варианту с GDB могу добавить что еще есть LLDB и он несложно скриптуется на Python. К варианту с dtrace добавлю, что dtrace тоже скриптуется, это вообще его основной метод использования, правда, скриптуается он на доморощенном языке D (нет, не том D, другом D), так что как уже было сказано, порог вхождения тут высокий.
Идея посмотреть, могут ли виртуальные машины и эмуляторы, например, QEMU, собирать детальные логи/дампы/трейсы мне нравится, можно покопать в этом направлении.