Size: a a a

2020 January 17

B

Bulatbulat48 in Scrapy
Евгений Jen
надо куки сохранять по цепочке вызова дочерних ссылок
обычно там SessionID и он помнить какую страницу открывал
СПС, надо проверить.
источник

AR

Andrey Rahmatullin in Scrapy
ну там ещё приоритеты етсь, но тут вроде вопрос конкретно про start_requests
источник

B

Bulatbulat48 in Scrapy
Михаил Синегубов
хм, я десктопник, и мне бы и в голову не пришло передавать ВСЕ (пофиг, куда угодно, на удаленный хост, в базу и т.д.), только в крайнем случае.
короче, @Bulatbulat48, мои соболезнования... :), я, к своему счастью, всего несколько раз на ASP нарывался
Да я просто помогаю с задачкой)
источник

МС

Михаил Синегубов in Scrapy
да, пока никаких приоритетов, просто очередь общая
источник

МС

Михаил Синегубов in Scrapy
а вот теперь главный вопрос - в какой момент пространства и времени запрос освобождает "место" в очереди?
источник

AR

Andrey Rahmatullin in Scrapy
когда ответ от сервера приходит имхо
источник

AR

Andrey Rahmatullin in Scrapy
вообще хороший вопрос
источник

AR

Andrey Rahmatullin in Scrapy
я когда пытался фикс вмонтировать туда, я запутался
источник

AR

Andrey Rahmatullin in Scrapy
и то ли фикс неправильный, то ли я его не туда вкрутил
источник

AR

Andrey Rahmatullin in Scrapy
источник

МС

Михаил Синегубов in Scrapy
по идее, но должно быть в мидлваре, еще до коллбека, т.е. для "обычного" прокраммиста, в начале колбека....
источник

AR

Andrey Rahmatullin in Scrapy
ну да, не позже
источник

МС

Михаил Синегубов in Scrapy
угу, тогда у булата может быть с этим проблема, если кто-то "влезет" вне очереди...
источник

ЕJ

Евгений Jen in Scrapy
Bulatbulat48
СПС, надо проверить.
источник

B

Bulatbulat48 in Scrapy
спс!
источник

ЕJ

Евгений Jen in Scrapy
: )
если объем страниц не большой - возможно проще будет сделать на requests.Session + lxml
в N вложенных циклах
for url_lvl1 in ...:
  for url_page in...:

и для каждой последовательности ссылок создавать свой requests.Session
тогда не прийдеться запариваться с meta и yield
источник

B

Bulatbulat48 in Scrapy
Евгений Jen
: )
если объем страниц не большой - возможно проще будет сделать на requests.Session + lxml
в N вложенных циклах
for url_lvl1 in ...:
  for url_page in...:

и для каждой последовательности ссылок создавать свой requests.Session
тогда не прийдеться запариваться с meta и yield
нужен скрапи. Кстати там еще интересно, то что можно послать ScreenWidth > 20000. И получить все продукты без пагинации.
источник

ЕJ

Евгений Jen in Scrapy
крутая оптимизация
источник

B

Bulatbulat48 in Scrapy
Но оно ломается на больших категориях(слишком большой ответ), потом сделал запросы из келбека - все работало, но как мне сказали оно тоже ломается на большом кол-ве. Но я не тестил сам, мне уже лень. Там еще вход по логину. Предложил пока каждую категорию с новым логином/сессией, вроде должно помочь. Спасибо!
источник

B

Bulatbulat48 in Scrapy
по сути самое правильное поставить asp.net и смотреть реализации 🙂 На сколько помню оно из коробки все работает. Но это не точно.
источник