Полная задача - есть куча пользователей нарезанные по файликам. Файлики ридонли. Периодически приходят запросы вида "нам надо сделать выборку по этим ~5 тысячам пользователей. Скажите какие файлики нам для этого надо просканировать."
Можно какие-то файлы построить - те же фильтры Блума или этот blooming filter, который возможно не подходит или b+ дерево, которое довольно жирным может получиться и положить их рядом с файлами с данными и пытаться лениво кешировать