смена верстки на сайте нужно переписовать селекторы заново
Я догадался я просто не программист но понимаю что там сменили классы и так дальше, желательно туда добавить ещё задержку, а то если много запрсов сразу то их сервак банит
Ребят, всем доброго времени суток. Подскажите, пожалуйста, как лучше всего через scrapy пройтись по файлу, в котором ~10 млн. ссылок? Загружать их в список start_urls не лучшая идея, наверное.
Можешь использовать итерацию и читать по одной строке, но более важный вопрос, это как ты будешь хранить пропаршеные ссылки, 10м это достаточно много, так что нужно фиксировать Я бы загрузил их в бд, ну или можешь заморочиться с файлами
Ребят, всем доброго времени суток. Подскажите, пожалуйста, как лучше всего через scrapy пройтись по файлу, в котором ~10 млн. ссылок? Загружать их в список start_urls не лучшая идея, наверное.
Можешь использовать итерацию и читать по одной строке, но более важный вопрос, это как ты будешь хранить пропаршеные ссылки, 10м это достаточно много, так что нужно фиксировать Я бы загрузил их в бд, ну или можешь заморочиться с файлами
Мне только только в голову збрело, что создавать дополнительный файл, с посещенными урлами - это оверхед, учитывая то, что результаты парсинга каждой ссылки заносятся в Elasticsearch 🤦♂️🤦♂️