единственное адекватное применение кластера это парсинг всего инета(яндекс/гугл)
не, ну у меня грозит задача парсить ГЕО инсты но паре сотен городов. Если пойдет проект. То там десятки млн постов в адекватное время обрабатывать надо + всех авторов. Че то интеерсненькое предполагается...
там еще проблема интерестная вылезет….ботлнеком будет БД…прост мало кто парсил что-то действительно крупное…у меня БД в несколько ТБ, запись занимает больше времени, чем парсинг с одной ноды
там еще проблема интерестная вылезет….ботлнеком будет БД…прост мало кто парсил что-то действительно крупное…у меня БД в несколько ТБ, запись занимает больше времени, чем парсинг с одной ноды
да это да, я сразу людям озмвучил эту проблему, пускай думают :)
ничосе тут задачи - 100 лямов спарсить. У меня максимум пара лямов были сайты) А на таких объемах это уже начинаются задачки вида "спарсить весь интернет" чтоб по-бырику проверить какуюто научную теорию