Телеграмм чат группы scrapy

Доброго дня суток. Начал использовать Splash для отображения страниц. Обнаружил, что он отображает далеко не все, что нужно. Попробовал другой вариант - Selenium. Он работает, есть даже реализация scrapy-selenium, но не поддерживает параллельные запросы. Вторая проблема с ним - иногда падает/зависает до окончания работы паука, если нужно пропарсить много страниц. Есть ли у вас другие варианты на примете?

источник

13:57пожаловаться #8

Andrey Rahmatullin in Scrapy

Может просто в сплеше ждать нужного элемента?

источник

14:00пожаловаться #9

Владислав in Scrapy

Я выставлял splash:wait(5). По логам видно, что все запросы завершаются за 0.5с

источник

14:02пожаловаться #10

Evgen in Scrapy

Попробуйте выключить приватный режим в splash

источник

14:04пожаловаться #11

Evgen in Scrapy

Попробуйте сэмулировать скролл

источник

14:04пожаловаться #12

Владислав in Scrapy

Evgen

Попробуйте выключить приватный режим в splash

Спасибо! Помогло

источник

14:16пожаловаться #13

Andrey Rahmatullin in Scrapy

🤔

источник

14:16пожаловаться #14

МС

Михаил Синегубов in Scrapy

народ. скрапи как то позволяет посмотреть количество запланированных запростов?

источник

23:06пожаловаться #15

МС

Михаил Синегубов in Scrapy

либо я в логику не раздупляю, либо одно из двух....

    def start_requests(self):
        for ids in self.data:
            yield scrapy.Request(....)
            self.location_requests += 1

на парсинг чуть больше 10 тыс локаций, периодиченость лога 1 минута, через минуту сделано 839 запросов + 2152 дополнительных (запрос доп. данных) на счетчике 25....

это что получается, у меня CONCURRENT_REQUESTS=50, и скрапи берет первые 50 ссылок и пока очередь не очистится, остальные брать не будет?

источник

23:12пожаловаться #16

Andrey Rahmatullin in Scrapy

да

источник

23:25пожаловаться #17

Andrey Rahmatullin in Scrapy

https://github.com/scrapy/scrapy/issues/456#issuecomment-247622571

GitHub

Allow start_requests method running forever · Issue #456 · scrapy/scrapy

For version 0.18.4 Situation A Spider gets one Reuqest from start_requests, and start_requests won't stop because it depends on the MQ. I know spider is sheduled by "yield&quot...

источник