Ну на вскидку, как уже тут писали, можно хранить документы в hbase, спроектировав ключ и настроив ttl. Далее через lily hbase indexer (в клаудере это вроде key-valye store indexer service) реплицировать данные из hbase в solr-кластер для полнотекстового поиска по ним. В solr есть schemaless-mode, можно включить этот режим, либо, настроив data import handler в конфиге, преобразовывать входящий документ в необходимый формат.
Спасибо, ещё бы знать сколько все это добро генерит оверхеда по данным плюсом к сырым данным на hdfs. Потому что ограничение ест на место, но есть много рам, 7 тачек по 512гб каждая