Ну для начала можно ускорить сравнение строк с использованием скользящей маски (bitmask). Потом sincos да и некоторые остальные мат функции можно ускорить, потом повсчет хеша, сейчас используется xxHash32, можно переписать его на xxHash64 + simd для строк ну и так далее. Практически любые операции со строками могут быть ускорены посредством SIMD