Итого: Проект состоит из 2х частей.
1. ioc_extract - вытаскивалка индикаторов из твиттов на базе регулярок. Ребята учли очень много особенностей в экранировании и формах представления индикаторов. Из того, что успел потестить, кажется - это пока лучший экстрактор.
Еще он умеет переходить по линкам из твитта и вытаскивать индикаторы в пастбине, VT, гибриданализис.
2. classifier - на корпус из 80 000 твиттов они сделали Bert-base NER модель для домена cybersec твиттов. Классификатор. на основе этой модели, с хорошей точностью (есть табличка с реколами и пресиженами) определяет наличие индикатора, вендора, уязвимости, названия малвари (ранее известной).