Для больших данных и обработки данных с диска есть решение в виде ClickHouse. Он сжимает данные, хорошо читает с диска за счёт колоночной структуры. Поэтому быстр. Но на нём надо будет научиться программировать, у него специфичные функции. С ним можно логи долго не удалять и хранить подробную историю всего. Ещё не пробовал в бою, просто присматриваюсь.
Pandas хорош для вычислений в оперативной памяти, он загружает весь DataFrame в ОЗУ. Ему надо много ОЗУ, работает он быстро. Пробовал в бою. Если данные в ОЗУ не поместятся, то включится gc, обработка замедлится или вообще будет не возможна. На практике во время загрузки данных выполнялся их парсинг, чтобы сырые данные превратить в статистику, которая влежает в ОЗУ.
ElasticSearch не сжимает данные, имеет быстрый и удобный поисковый движок, но требует много места на диске под индексы. Поэтому там логи больше недели не хранят. Он для оперативного разбора данных за последнюю неделю.
InfluxDB хорош для хранения статистики, а не для сырых данных. В него загружаю статистику по логам - сколько было таких текстов (тегов) за 5 минут. А не все тексты за 5 минут. Статистику можно создать в awk, python + pandas, csvkit, чем-либо другом. Такой объем он переваривает легко. Если залить в InfluxDB сырые данные, то база зависнет. Он может хранить данные по году и больше, если туда всё подряд не лить