ой да камон. такого, в реальности, полторы задачи. любой нормальный биоинформатик просто бахнет на кластер и забьет. я знаю единичные случаи, когда люди вот прям серьезно упираются в производительность. и то в этом случае обычно уже есть прототип и проще нанять прогера в команду, чем ждать хорошего кода от биоинформатика
Ну если честно, я вот уже какое-то время решаю задачи регулярного быстрого сравнения 700-800 таблиц по ~10^6 строк с референсом размером ~10^5 строк. Задача - собрать огромный датасет, где по ключу к строкам из первой таблицы джойнится строка из референса, если хэмминг дистанс между записями не более 1. Задача сама по себе довольно тупая, но я пока не упоролась в нормальное распаралеливание и тот же сайтон, даже параллельные вычисления на кластере занимали кучу времени