а че там делать, проблема разделить главный цикл на треды что сейчас более менее решается
Да не в том дело. Оптимизация под конкретную микроаритектуру делается на уровне компилятора, если она нужна. А вся остальная оптимизация к архитектуре привязана примерно на уровне "ок,у нас 8 ядер и 16 потоков"