вывод других тулов (скажем вариант коллеров в формате VCF) должен следовать спецификации VCF. должен. но не обязан.
всего можно использовать скажем 5 популярных вариант коллеров.
вместо того чтобы писать тул под вывод именно того коллера который использует конкретно ваша лаба - можно писать продукт для людей и тогда нужно тестировать на всех 5ти тулах.
Т.е. если я напишу программу, которая мне поможет с обработкой данных. Соответственно, произведу новые знания. После чего поделюсь этой программой, чтобы народ мог повторить мои результаты, то я буду программистом, учёным, или и тем, и тем.
Нет, программа — это не знания. Знания, которые вы произведёте, вы напишете в диссер и станете пхд, а программой поделитесь на гитхабе и не получите за это ничего, кроме issues)))
у меня было не раз что мой тул отрабатывает на 10 тысячах файлах из сотен тысяч строк каждый и падает на 10ти тысячном на строке номер 999 потому что там какой-то дичайше редкий вариант записан абсолютно срано, или какой-то серединный тул что-то не понял и не так записал - это биоинформатика, это норма
Ну только если в индустрии. В академии один я не вытяну большой проект. Это нужно делать в команде. К тому же, его надо будет поддерживать. А денег на это не выделяют. В общем грустновато