Немного утопии, но вообще конечно, собирать стоит всЁ и ограничиваться только вместимостью железа по хранению данных. И хранить по времени столько, сколько позволяет железо. А дальше уже по достаточным данным писать корреляции. Если говорить, о том что мы внедряем с нуля и без базы знаний, то проанализировав данные в хранилке мы поймем какие корреляции по этим данным мы можем написать. Будет большим плюсом если есть база знаний, особенно соотнесенная по типом сурса. Тогда проще.
Конечно, наверно уже пора пилить некий стандарт соурсов и правил корреляций под них)